#AI 模型
下一個Transformer可能又被Google做出來了
如果把現在的頂尖大模型比作一個人,那它一定患有一種罕見的神經系統疾病:順行性遺忘症(Anterograde Amnesia)。這是 Google Research 研究員、最近最受關注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病症的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發病前的一切,我是誰,我來自那裡,我有什麼技能。但對於發病後發生的所有事情,他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當下”,幾分鐘後,一切就會被重設。這就是現在 AI 模型的真實寫照。無論Gemini或是ChatGPT多麼博學,如果不聯網搜尋,它們都只能依靠預訓練階段獲得的出廠知識(也就是“發病前”的記憶)來回答問題。而在對話窗口裡,無論你教給它多少新公司的業務邏輯,或者糾正了它多少次程式碼錯誤,這些資訊都只停留在短暫的上下文窗口裡。一旦窗口關閉,或者視訊記憶體被重設,它就像金魚一樣,把剛才發生的一切忘得乾乾淨淨 。下一次見面,它依然是那個出廠時的它,絲毫沒有因為與你的互動而變得更聰明一點。為什麼擁有超級算力的 AI,卻治不好這個健忘症?長期以來,行業有一種二元對立的看法,認為 AI 的“架構”(Architecture)和“最佳化器”(Optimizer)是兩個截然不同的物種。架構是骨架(如 Transformer),它是靜態的,出廠即凍結,負責“推理”。“最佳化器”是雕刻刀(如 Adam、SGD),它是動態的,只在工廠裡用來訓練模型,出廠後就被沒收了。我們習慣了把 AI 當作一個靜態產品,訓練好了,打包發佈,使用者只管用。但在 Google 最新發佈的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(巢狀學習:深度學習架構的幻覺)中,研究團隊試圖告訴我們,這其實是一種幻覺,是我們人為製造的自我設限。如果架構和最佳化器本質上是同一個東西呢?如果並沒有所謂的“訓練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?基於這個大膽的假設,Google 團隊提出了一個名為 HOPE 的新框架。他們並沒有簡單地堆砌參數,而是試圖從底層邏輯上重構 AI 的“大腦結構”,讓它不再是一個出廠即固化的工具,而是在每一次互動中都能微調自己、擁有“快慢記憶系統”的動態生命體。而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個Transformer 等級的創新。Ali Behrouz 在 NeurIPS 2025 現場講解Nested Learning。拆解“幻覺”:被遺忘的中間地帶要治好“健忘症”,我們首先得看看現在的 AI 大腦裡到底裝了什麼。在 Ali Behrouz 的解構下,目前的 Transformer 架構呈現出一種極端的“精神分裂”狀態。如果不使用複雜的數學術語,我們可以把它的內部元件看作兩個極端:一個是“極快”的 Attention(注意力機制)。它時刻處於亢奮狀態,對你輸入的每一個字(Token)都進行瞬時的計算和響應。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學習能力(In-Context Learning),你剛說的話,它馬上就能用。另一個是“極慢”的 MLP(前饋神經網路)。它是模型的長期記憶庫,承載了絕大多數參數。但它的更新頻率是 0。這部分像一塊凍結的硬碟,除非你耗費巨資進行全量微調(Fine-tuning),否則它永遠不會改變。在這兩者之間,存在著一個巨大的真空地帶。這就是“幻覺”的根源。人類的大腦並不是這樣工作的。我們的記憶是一個連續的頻譜,我們有幾秒鐘的感官記憶,有幾小時的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸並不是非黑即白,而是以各種不同的頻率在不斷微調。為了填補這個真空,Google 團隊提出了 Nested Learning(巢狀學習) 的概念。我們可以把它想像成一套精密咬合的齒輪系統”:最外層的小齒輪轉得飛快(處理當前的對話);中間層的齒輪轉得稍慢(記住過去幾小時或幾天的任務);最裡層的大齒輪轉得極慢(沉澱世界觀和基礎知識)。為了證明這種統一性在生物學上的合理性,他甚至在論文中引用了一個非常硬核的神經科學案例,半球切除術(Hemispherectomy) 。醫學發現,即使切掉人類的一半大腦,通常是為了治療嚴重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦並沒有什麼“專門負責 Attention 的模組”或“專門負責 MLP 的模組”,神經組織是通用的、可復用的。同樣的道理,AI 的“架構”和“最佳化器”本質上也是同一種東西,只是處於不同的巢狀層級:傳統的模型記憶的是“資料”(Token);最佳化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個地方犯了錯,下次要修正” 。既然都是在“記憶資訊”並“更新狀態”,為什麼我們要把它們人為地割裂開來?也許我們不需要在這個二元對立的框架裡修修補補,可以直接設計一個全頻率覆蓋的動態系統。HOPE 的三層設計基於 Nested Learning 的理論,Google 團隊交出了一份具體的工程答卷,還起了一個充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。如果說傳統的 Transformer 是一個只有短期記憶的“單核處理器”,那麼 HOPE 更像是一個符合神經科學原理的“雙重記憶大腦”。它通過兩個元件,復刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協作機制 。1. 快系統:像海馬體一樣敏銳的 Titans在 HOPE 的最前端,是處理即時資訊的“快系統”。這裡 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負責快速捕捉和編碼當下的新知。傳統的 AI 模型在處理新資訊時是被動的,但 HOPE 裡的 Titans 模組具有極強的“主觀能動性”,它是 Self-Modifying(自我修改) 的。它不僅是在讀取資料,更是在根據當前的上下文,即時生成自己這一步學習所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學習率) 。這意味著,它能敏銳地判斷眼前資訊的重要性,快速形成短期記憶。2. 慢系統:像皮層一樣厚重的 CMS這是整個架構中最具顛覆性的設計。HOPE 引入了 Continuum Memory System (連續記憶系統,CMS)。CMS 就像是厚重的大腦皮層,負責將經過篩選的知識長久地刻印在神經元中。Google 將人腦電波的頻率機制引入了 AI 架構設計,建構了不同更新頻率的層級在 CMS 中,模型內部的 MLP(前饋網路)不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉速的齒輪:高頻層: 可能每處理幾百個字就更新一次,用於捕捉剛才對話裡的新定義。中頻層: 可能每處理幾萬字更新一次,用於適應一個新的項目背景。低頻層: 幾乎不更新,用於穩固語言的語法和常識 。左側的 HOPE 架構擁有豐富的中間層級這種設計避免了災難性遺忘。當新知識湧入時,它會被優先儲存在高頻層,而不會去驚擾低頻層裡的舊知識。隨著時間的推移,真正重要的資訊才會像沙漏裡的沙子一樣,慢慢沉澱到深層。3. 最佳化器也有了“記憶”Google 的激進之處在於,他們不僅改造了大腦(架構),還改造了老師(最佳化器)。為了配合這就這套複雜的系統,他們設計了一個名為 M3 (Multi-scale Momentum Muon) 的新最佳化器。既然模型分了層,最佳化器為什麼不能分層?普通的 Adam 最佳化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 最佳化器本身也被設計成了巢狀結構,它有一層“快動量”負責看腳下的路,還有一層“慢動量”負責看遠處的山脈(全域 Loss Landscape)。這意味著,連負責訓練的演算法本身,都擁有了更深遠的記憶力。M3 最佳化器在 ImageNet 訓練任務中,展現出了更快的收斂速度和更低的 Loss實驗資料顯示,這種設計在 ImageNet 和大語言模型訓練上,不僅收斂更快,而且最終效果更好。4. 給工程師的“後悔藥”對於工業界的開發者來說,HOPE 最迷人的地方可能不是從頭訓練一個新模型,而是它提供了一種“原地改造”的可能性。Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手裡現有的 Llama 或 Qwen 模型。你可以直接拿來一個預訓練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設為高頻,深層設為低頻 。這就像是給一輛已經出廠的舊車,通過刷新韌體就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個工程方案。從“靜態產品”到“動態生命”我們把視角從程式碼行中抽離出來,會發現 Nested Learning 真正的野心,不在於刷榜,而在於試圖完成一次 AI 領域的範式轉移。在 NeurIPS 的分享最後,作者提出了一個發人深省的觀點,“深度(Depth)也許不再是唯一的答案。”過去十年,我們一直在堆疊物理層數,把神經網路做得越來越深。這種暴力美學確實帶來了湧現能力,但它也製造了一個巨大的“幻覺”,誤以為智能來源於靜態的深度。而忽略了真正的深度可能來自於巢狀的最佳化。更進一步,論文中提出了一個極其激進的定義:“預訓練本身,其實就是一種超長上下文的 In-Context Learning。”這句話消解了 AI 領域最大的邊界。在 Nested Learning 的願景裡,沒有所謂的“訓練結束”這一天。模型在與使用者互動的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器,而是一個在資料流中不斷呼吸、代謝、進化的有機體。這或許才是通往 AGI更本質的道路,智能不是被灌輸的,而是在互動中生長的。當然,任何試圖顛覆範式的理論,註定會伴隨著巨大的爭議。這圍繞這篇論文討論區裡,聲音很多樣。樂觀者將其視為 "Attention Is All You Need V2"。社區對於自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統計學的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認知”能力,即學習如何學習。這種從被動擬合到主動適應的跨越,被認為是 AI 產生質變的關鍵。實用主義者則看到瞭解決災難性遺忘的曙光。如果這一架構能落地,未來的企業級 AI 將不再需要為了更新一點點業務知識而耗資百萬進行全量重訓,AI 可以在業務流中自然地學會新規章,同時不忘記舊制度。這是對降本增效是最直接的。質疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強行解釋為“聯想記憶”的數學證明雖然精彩,但更多依賴直覺,缺乏嚴謹的收斂性保障。更有工程師擔心,這種複雜的“巢狀最佳化”會讓調參難度呈指數級上升,畢竟,調一個 Adam 已經夠頭疼了,現在我們要同時調好幾個不同頻率的“大腦”。但無論如何,Google 這一次沒有在參數量上卷,而是在“學習的本質”上開了一槍。它用一種近乎哲學的方式提醒我們,對於一個真正的智能體來說,存在就是壓縮,活著就是學習。 (矽星人Pro)
中美AI算力中盤博弈:開放與封閉之爭
近日,GoogleTPU攜Gemini3逆襲之勢大幅拓寬增量前景,Meta考慮斥資數十億美元為其買單,機構將TPU產量預期上調67%至500萬塊。基於“晶片-光交換網路-大模型-雲服務”全鏈閉環,Google智算體系重回AI賽道前沿梯隊,標誌著美式封閉壟斷路線更進一步。與此同時,以DeepSeek為代表的開源模型緊追不捨。月初,DeepSeek V3.2及其長思考增強版模型出爐,前者在性能測試中打平ChatGPT,後者直接對標閉源模型頂流Gemini。這也預示著中國開源開放路線漸入佳境,國產智算體系在應用層展現出良好的生態協同潛力。至此,中美AI產業博弈棋至中盤,“開放協同”與“封閉壟斷”對位格局愈發清晰。尤其在智算生態佈局中,兩大陣營或正醞釀著一場體系化能力的巔峰較量。從Gemini 3到TPU v7,軟硬一體閉環臻至極境毋庸置疑,GoogleTPU的突然走紅,很大程度得益於Gemini3的模型能力驗證。作為專為GoogleTensorFlow框架而生的ASIC晶片,TPU憑藉軟硬體一體化設計為其全端閉環完成奠基,同時也在上層應用高位突破時俘獲外部使用者市場,甚至一度被視為輝達GPU的最強平替。所謂“軟硬一體化”,即硬體的設計完全服務於上層的軟體和演算法需求。如Gemini 3訓練和推理過程高度適配TPU叢集,而這種定製化專用模式也在功耗能效方面展現出極高價值——TPU v5e的功耗僅為NVIDIA H100的20%-30%,TPU v7每瓦性能較前代產品翻倍增長。目前,Google通過“晶片+模型+框架+雲服務”的垂直整合,形成了一個封閉且高效的循環。一方面極大地提升了自身AI研發和應用開發效率,另一方面也在NV主流體系下裂土而治,奪得又一智算賽道主導權,Meta對TPU的採購意向則將這一體系熱度推向了高點。業內有觀點指出,從蘋果到Google,美式的垂直封閉玩法幾乎臻至極境,表現出科技巨頭為鞏固和擴張利益版圖,在產業鏈層面泛在的壟斷慾望。但從生態發展角度來看,封閉模式缺乏長期主義精神,極易導致產業長下游喪失創新活性,並形成單一主體高度集權的格局。另外,從TPU的應用場景來看,軟硬一體閉環儼然是專屬於巨頭的遊戲。某分析人士稱,Google的叢集化設計和“軟體黑盒”,需要使用者重新配置一整套異構基礎設施。如果沒有兆參數模型訓練需求,根本填不滿TPU的脈動陣列,省下的電費可能都抵消不了遷移成本。同時,由於TPU技術路線極為封閉,與主流開發環境無法相容,使用者還需要一支專業的工程團隊駕馭其XLA編譯器,重構底層程式碼。也就是說,只有像Google、Meta這種等級的企業才有資格轉向TPU路線,也只有算力規模達到一定程度才能發揮出定製化產物的能效優勢。不可否認,Google等頭部企業通過垂直整合自建閉環,在局部賽道快速實現單點突破,同時也造就了美國科技巨頭林立的蔚然氣象。但在中美AI博弈背景下,美式封閉壟斷路線憑藉先發優勢提前完成了賽道卡位,被動的追隨式趕超已很難滿足中國智算產業的發展需要。“小院高牆”之外,如何充分發揮舉國體制優勢,團結一切力量拆牆修路,成為拉近中美AI體系差距的關鍵。多元異構生態協同,開放路徑通往下一賽點相較於美式寡頭壟斷模式,中國智算產業正基於多元異構體系層層解耦,重塑開放式生態系統。從頂層設計到產業落地,“開源開放+協同創新”已然成為國產軟硬體全端共識。在政策層面,《算力基礎設施高品質發展行動計畫》提出建構佈局合理、泛在連接、靈活高效的算力網際網路,增強異構算力與網路的融合能力,實現多元異構算力跨域調度編排。並且,相關部門多次強調,鼓勵各方主體創新探索智能計算中心建設營運模式和多方協同合作機制。延伸到AI應用層,《關於深入實施“人工智慧+”行動的意見》同樣要求深化人工智慧領域高水平開放,推動技術開源可及......不難看出,國家在人工智慧和智算領域給出了截然不同的中國方案——不在封閉路線中盲目追趕封閉,要在開放格局下謀求錯位趕超。事實上,頂層設計完全基於產業現實需要。在美方科技封鎖下,中國智算產業主要面臨兩大挑戰:單卡算力性能瓶頸、算力成本高。除了在晶片、模型、基礎軟體等核心技術領域持續攻堅外,當前更有效的途徑是發展更大規模、更多元高效的智算叢集,突破AI算力瓶頸。業內調研結果顯示,國內宣佈擁有千卡規模的算力叢集不少於100個,但其中大部分是異構晶片。可以想像,假如不同硬體系統相互封閉,標準介面不統一,軟體棧互不相容,將導致難以實現智算資源的有效整合利用,更無法滿足大規模參數模型的應用需求。根據行業主流觀點,國產AI算力存在多元化、碎片化特徵,同時又具備相當的規模化優勢。當務之急並不是各自埋頭推進單一技術路線,更首要的是盡快打通“技術牆”、“生態牆”,實現產業鏈開放跨層協作,真正釋放總體算力生態潛能,從單點突破邁向整合創新。具體來看,所謂開放路線旨在基於開放的計算架構推動產業生態協同創新。比如通過制定統一的介面規範,聯動晶片、計算系統、大模型等產業鏈上下游企業共同參與生態建設,減少重複性研發和適配投入,共享技術攻關和協同創新效益。同時,隨著開放架構中的協作標準趨於統一,可以進一步打造出商品化的軟硬體技術,用以代替定製化、專有化的系統,進而降低計算產品應用成本,實現覆蓋產業全端的算力普惠。顯然,在中國式開放體系下,國產AI算力正打破GoogleTPU的泛化普及困境,將智算生態系統與各方開發者使用者廣泛連結,最終形成體系化協同戰力,更靈活高效賦能人工智慧+落地。屆時,中美AI博弈也將走出單卡競爭和單一模型比拚,全面迎來生態體系能力的終極對壘。 (伯虎財經)
Anthropic啟動IPO!CEO自曝內部算力財務模型:不確定性圓錐!回應泡沫:增長肯定放緩,舊晶片價值快速下降!規模依舊有效
我們買的算力規模,是在“即便是第 10 百分位的悲觀情景下”,大機率依然付得起帳。YOLO式下注,風險旋鈕擰的太狠了。我認為勝率會在我們這邊。幾個小時前,素有“華爾街、矽谷超級提問者”的DealBook 創始人、紐約時報首席財經記者Andrew Ross Sorkin,與 Anthropic 的 創始人 Dario Amodei 展開了一場年末對話。這次採訪背景一方面是大洋彼岸已經處於聖誕前夕,但更重要的一面是,昨天,Anthropic被曝出已經啟動IPO籌備工作,計畫最快2026年上市,估值或達3000億-3500億美元。在此之前,則是 Transformer 架構和 Scaling Law 終結的爭議,以及 Gemini 3 Pro 模型的爆火,OpenAI  內部拉響紅色警報。這些事件的接連發生,讓此前甚囂塵上的“泡沫爭議”和接下來AI模型的發展走向帶來了新一輪的不確定性。Dario在爆出了自家的算力財務模型,他們內部稱之為一個不確定性圓錐。如果我有 80% 的毛利率,我花 200 億美金買算力,可以支撐 1000 億美金收入。但問題在於,這個“不確定性圓錐”實在太寬了,很難避免在某一側犯錯。此前,Dario 就曾表示,Anthropic 計畫在 2028 年實現盈虧平衡。而對於 AGI 的實現路徑,Dario 對於 Transformer 架構依舊保持樂觀:我仍然認為是 “規模化 + 偶爾的小修小補” 就足夠了。對於業界一直擔心的GPU晶片的折舊周期,Dario 回應道:舊晶片的價值會快速下滑。我們在建模時,已經默認舊晶片價值會快速下滑,同時也假設晶片效率曲線會持續高速演進。對於自己經常發出警告這件事,Dario對美國AI監管隱隱表達了不滿:現在美國監管已經分成了兩個世界,應該讓真正最接近AI技術的人來發聲。對於自己曾說過的“90%的工作會被AI替代”言論,Dario說,那只是半句話,下半句則是——那怕 AI 完成了 90% 的工作,而不是 100%,人類的“剩餘 10%”反而會被放大 10 倍,有時候甚至需要 10 倍的人,去完成原來 100 倍產出的事情。問題不在“會不會替代”,而在“企業願不願意更多選擇創造新價值,而不是只做極致降本”。以下是這次採訪的整理內容,大家enjoy!泡沫存在:接下來速度一定會放緩 但有些公司卻在YOLO 式下注主持人(Andrew Ross Sorkin):今天下午的重頭戲從 Dario 開始。他是當今人工智慧領域最具影響力的人物之一,是 Anthropic 的聯合創始人和 CEO,這家公司以 Claude 模型聞名,是歷史上增長最快的科技公司之一,現在更是同時獲得了三大科技巨頭——亞馬遜、微軟和Google的支援。他比大多數人更早進入這個領域,早年在 BYU 做研究,後來加入Google,又成為 OpenAI 的早期成員,主導了 GPT-2 和 GPT-3 的研發。歡迎你來到現場。Dario Amodei: 謝謝邀請。今天可以聊的話題很多,包括——我們是不是正處在一個 AI 泡沫中?但我保證,我們會慢慢談到那個問題。主持人: 那我就直接問那個一開始提到的問題吧。你也承認,2014 年沒人想到 2025 年會走到今天這個程度。現在這個行業吸納的資金規模,幾乎代表了美國當前 GDP 增長的主要來源之一。我們是不是正處在某種泡沫中?是不是在過度投資?Dario: 這是一個非常複雜的問題,我必須把“技術本身”和“經濟層面”分開來看。從技術角度看,我非常堅定,我可能是最樂觀的那一類人之一。 但從經濟層面看,我確實有擔憂。即便技術真的兌現了承諾,生態裡如果有人在節奏上稍微踩錯一步,後果會非常嚴重。先說技術這部分。之所以我對技術進展並不太驚訝,是因為我和幾位後來成為聯合創始人的同事,最早系統性地總結過 AI 的“Scaling Law”——也就是只要你不斷加算力、加資料,在少量結構微調下,模型能力就會持續提升。像推理模型、測試時算力,本質上都是非常小的改動。我已經跟蹤這個趨勢 12 年了。最震撼的是:你用這樣極其簡單的方式訓練模型,它會在幾乎所有領域同步變強——程式設計、科學、生物醫藥、法律、金融、材料、製造業,這些正是整個經濟的核心價值來源。只看 Anthropic 自身,因為我們更偏企業級市場,我覺得更像一個“純粹的溫度計”。我們過去三年,收入每年 10 倍增長:2023 年從 0 到 1 億美元,2024 年從 1 億到 10 億,今年會落在 80 到 100 億之間。未來還會不會這樣漲?我不知道。但技術確實在推動價值,經濟回報也正在兌現。 它一定會放緩,但依然會非常快。所以我對“長期終局的經濟價值”是有信心的。主持人: 但問題在於,現在有公司每年要燒掉上千億美元,你們也計畫投 500 億。Sam Altman 去年的規劃數字同樣驚人。這是一次超級昂貴的下注。這個帳到底能不能算清,還是更多是一種“直覺賭注”?Dario: 這就進入我剛才說的第二部分——真正的困境來自於:“經濟價值增長速度”的不確定性,與“資料中心建設周期”的滯後性之間,存在巨大張力。 這是擺在所有公司面前的真實兩難。我認為有些參與者是在“YOLO 式下注”,把風險旋鈕擰得太狠了,對此我非常擔憂。主持人: 誰在 YOLO?Dario: 這個我不回答(笑)。但你可以換個視角想:如果你站在我這個位置,連續三年收入 10 倍增長,很自然會去問:明年會怎樣?如果你非常粗暴地外推,下一年可能是千億美元等級——我必須強調,我完全不相信這個數字。但它是數學上的上限之一。如果你從更理性的企業客戶、具體場景、銷售路徑去拆,可能是 200 億、300 億。所以我內部把它稱為一個“不確定性圓錐”——一年後是 200 億,還是 500 億,極其不確定。 我只能按最保守的一側去做規劃,但這種不確定性本身就足夠令人不安。算力財務模型 不確定性圓錐實在太寬了Dario : 還要疊加一個現實因素:資料中心建設有很長的滯後周期,通常是一到兩年。這意味著我必須在“現在”,甚至幾個月前,就決定:在 2024 年初要買多少算力,去服務 2027 年初那個收入規模下的模型。這中間存在兩個強耦合風險:第一,如果我買少了算力,我就沒法服務所有客戶,只能把他們推給競爭對手;第二,如果我買多了算力,而收入又沒跟上,我就付不起這些算力的成本,極端情況下甚至會面臨破產風險。這個“安全緩衝”本質上取決於我的利潤率。如果我有 80% 的毛利率,我花 200 億美金買算力,可以支撐 1000 億美金收入。但問題在於,這個“不確定性圓錐”實在太寬了,很難避免在某一側犯錯。Dario: 我們自認為是一家相對克制、負責的公司。因為我們主做企業市場,我覺得我們的商業模式更健康,利潤更穩,也更謹慎。但如果你換成另一種模式,比如純消費者業務,收入來源沒那麼確定、毛利也不穩定,再加上企業家本身就是那種“偏愛 YOLO、偏愛大數字”的性格,那風險旋鈕就可能被擰得非常狠。只要存在不確定性,就必然存在過度擴張的系統性風險。 我們每家公司都面臨這個問題,再加上彼此之間的競爭壓力,甚至還疊加了與威權國家“國家層面的技術競爭”,整個系統都會被推著往前走。這種風險是不可消除的,只能被管理。 但我確實認為,有些參與者並沒有管理好這種風險,而是在進行不明智的下注。主持人: 你說到這裡,其實大家心裡大概也知道你在暗指誰。你曾對投資人私下說過,Anthropic 計畫在 2028 年實現盈虧平衡;而 Sam Altman 說的是 2030 年。我暫且按他的演算法來算:他需要在兩年內從 740 億美元等級的虧損,轉為兩年後實現盈利。這個在你看來合理嗎?Dario: 說實話,我不瞭解任何其他公司的內部財務情況,也不可能評價別人。我只能回到我們自己的計算邏輯,也就是那個“圓錐式不確定性”:我們買的算力規模,是在“即便是第 10 百分位的悲觀情景下”,大機率依然付得起帳。再糟也會存在“尾部風險”,這從來不可能為零,但我們在盡力把風險控制在可承受範圍內,同時又要確保我們在競爭中不被甩開。我們在訓練和推理上都很高效,利潤結構也不錯。我認為勝率在我們這邊。主持人: 現在市場上很多人開始討論所謂的“循環交易”,以前我們管這叫“廠商融資”。尤其是輝達,以及其他一些公司,直接入股 AI 公司,而這些公司隨後又用這筆錢去買輝達的晶片,相當於形成了資金閉環。你怎麼看?Dario: 我們也做過類似的交易,只是不是某些玩家那樣的大規模操作。我不講具體案例,只講一個“標準化結構”的例子,解釋為什麼它在邏輯上成立:假設你要建 1GW 的算力規模,買晶片、建機房,總資本開支大概是 500 億美元,使用周期可能是 5 年,也就是每年攤 100 億。如果你是一家年收入 80—100 億、處在快速增長期的公司,現在就讓你一次性掏 500 億,現實中根本不可能。那怎麼辦?大型廠商站出來說:“我先投你 100 億,佔 20%,你先用這 100 億覆蓋第一年,其餘的慢慢按收入滾動支付。” 如果你已經接近 100 億年收入,那這並不是一個瘋狂的賭局。資料中心一年建成,第一年融資覆蓋,意味著你只要在兩年後做到 100 億等級收入,就能跑得通這套邏輯。從結構上看,這並不違背商業邏輯。Dario: 真正的危險只發生在一個場景:如果你一層層疊加這種結構,最後變成“到 2027 或 2028 年,我必須做到 2000 億美元年收入”,那你就一定是在過度擴張。規模,決定了一切的風險邊界。一批晶片到底能撐過幾年?舊晶片的價值會快速下滑 保守押注者會活下來主持人: 這裡還有一個關鍵變數,幾乎決定了整個行業的“投資算不算得過帳”——晶片的折舊周期。你買一批新晶片,它到底是有效四年、五年,還是八年、十年?這個假設不同,整個行業的財務模型就完全不同。你怎麼看?Dario: 我們在內部做的是非常保守的假設。嚴格來說,並不存在一個固定、統一的“折舊年限”。晶片本身可以跑很多年,真正的問題不是“它還能不能用”,而是有沒有更快、更便宜的新晶片出現,並且你的競爭對手已經在用它了。 一旦出現這種情況,老晶片的相對價值就會迅速下降,甚至一年之內就會發生。現在不止是輝達,各家都在推新一代 TPU、GPU。我們在建模時,已經默認舊晶片價值會快速下滑,同時也假設晶片效率曲線會持續高速演進。我們在 Anthropic 的所有假設,基本都站在極端保守的一側。 結果是:在“幾乎所有世界線”裡,我們都可以活下來。當然,極端尾部世界線一定存在,但我只能為我們負責,不能替別人背書。我也完全可以想像,有些公司正在“自我欺騙”,建立在過度樂觀假設之上。主持人: 所以,市場上真正理性克制的,其實就你們兩家?Dario: 我不知道你在指誰(笑)。我真的不知道。ps:這裡小編猜測,所謂市場上真正保持克制的這兩家,一家自然是Anthropic,另一家90%的機率是指的 Amazon。(同樣瞄準的是企業市場,而且沒有過度囤卡。用排除法的話,只剩下 Amazon 和 Apple 了。然而Apple 算是大模型玩家嗎???不大會。)不卷C端!GoogleGemini強歸強,Claude清風拂山崗主持人: 那我們換個話題,聊聊模型本身的競爭格局。就在過去一周,矽谷內部幾乎“情緒失控”,因為某位你我都認識的人發佈了新模型,引發了巨大震動。Saraparay 去年也來過這裡,現在大家突然意識到,原本被認為“資料天生佔優、理應贏麻了”的 Google,可能真的開始發力了。 Sam Altman 內部甚至發了“紅色警報”郵件,讓所有人回到工位衝刺下一輪突破。在你看來,現在這些模型的真實排序是怎樣的?以及,這種“當下時刻的領先”,到底有多重要?Dario : 這是少有的幾個時刻之一,我真心覺得 Anthropic 選擇了一條不同的道路,是一件值得慶幸的事。 我們走的是企業市場路線。你剛剛提到的另外兩位玩家,本質上都還是以 消費者市場為核心,雖然也在做企業業務,但主戰場仍在 C 端。這也是為什麼會出現“Code Red”那種等級的內卷——Google 要守住搜尋壟斷,而 OpenAI 的核心陣地也在消費者端,這兩家是在正面肉搏。對他們而言,企業只是“第二戰場”。而我們過去幾年一直在 圍繞企業真實需求反向打磨模型能力,最先爆發的是程式設計,現在已經開始延伸到金融、生物醫藥、零售、能源、製造等領域。模型戰爭當然重要,比如我們上周剛發佈的 Opus 4.5,在程式設計能力上幾乎被公認為目前行業最強模型。但我們真正走的是“不同維度”的競爭路線,所以對這種你來我往的短期廝殺,依賴反而更低。某種意義上,我們處在一個相對“優越”的位置:可以持續增長、持續迭代模型,而不用天天發“紅色警報”。企業級AI很挑模型,遷移成本很高 專精能力會和AGI長期並存主持人: 那這些公司真正的“護城河”到底是什麼?如果有一天真的到了 AGI 等級,所有模型是不是都會趨同?誰還會在乎你用的是那家?是“記憶能力”嗎?還是人格差異?很多人現在就是那個新就用那個。Dario: 我只能從企業側講我的結論。為企業打造的模型,和為消費者打造的模型,在“性格”和“能力結構”上差異非常大。 企業模型更少追求“黏性與娛樂感”,更強調編碼能力、高階智力活動、科學推理能力。我也不認同“只要到了 AGI,所有東西都會收斂成一個形態”。你看看在座的所有人,都具備“通用智能”,但我們沒有變成同一種人。專精能力會和通用智能長期並存。 再加上企業側的現實因素:公司會形成使用習慣,會和某個模型建立長期關係。即便是在 API 這種“賣裸模型”的業務裡,遷移成本也極高。下遊客戶適應了某個模型的“脾氣”,提示詞、互動方式都深度繫結,切換代價很大。這意味著企業級 AI 具備長期穩定的商業粘性。通往AGI,“規模化+小修小補”足夠了主持人: 一個純技術問題:你認為,現在這種基於 Transformer 的架構,加上純算力規模化,本身就足以通向 AGI 嗎?還是說還缺“某個關鍵成分”?Dario: 我仍然認為是 “規模化 + 偶爾的小修小補” 就足夠了。這些修改之小,小到外界可能根本不會注意到,只是實驗室裡的技術迭代。我已經觀察這些 scaling laws 超過 10 年了。主持人: 那你的時間判斷呢?AGI 在什麼時候?Dario: 我其實不太喜歡“AGI”“超人工智慧”這些詞,因為沒有清晰定義。它更像 晶片摩爾定律式的指數曲線——模型會在所有維度持續變強:新模型比上一代程式設計更強、科研更強,現在已經常態化拿下高中數學競賽,正在沖大學數學,甚至開始 首次產生“全新數學發現”。Anthropic 內部已經有人對我說:“我現在已經不寫程式碼了,我只是讓 Claude Code 先打草稿,我負責修改。” 這種狀態,在過去從未真正出現過。 這個節奏只會繼續加快,沒有所謂“質變奇點”,只是能力持續外推,模型的智力不斷抬升,收入曲線不斷往後面加零。美國AI監管已經分成了兩個世界主持人: 你在(美)監管、就業衝擊這些問題上也相當激進。白宮的 David Sacks 曾公開指控 Anthropic 正在通過“製造恐慌”推動監管,從而進行“高階版的監管俘獲”,並且已經傷害了創業生態。你怎麼回應?Dario: 我還是那句話:不要把這場討論變成對個人或單一機構的攻擊。 我從 2016 年起就開始公開寫 AI 風險和治理的論文,那時候 Anthropic 這個公司根本還不存在,更談不上什麼“監管俘獲”。而且我們支援的幾乎所有監管法案,都明確為中小型創業公司設立了豁免條款。 比如我們支援的 SB53 法案,年營收低於 5 億美元的公司根本不在適用範圍內。 我們在這件事上非常謹慎。真正該討論的,不是立場對立,而是具體政策是否合理。Dario: 你可以拋出各種指控,但這些說法和現實完全不符,無論是和我們實際支援過的法律條文,還是和真實情況,都對不上。現在其實存在兩個世界:一邊是 Andreessen Horowitz 等人,他們支援一個超級政治行動委員會;你們這邊也在建構另一個超級 PAC,試圖用完全不同的方式去影響這個行業的監管。問題是,為什麼?你們看到了什麼,是他們沒有看到的?我還是想把討論維持在政策層面。我對這項技術的看法是:我能理解一些人的樂觀來源,但我確實擔心,有一部分人把 AI 視為類似網際網路、通訊技術那樣的技術革命,覺得市場自然會解決一切問題。放在過去那些技術浪潮裡,這種看法也許是成立的。但真正最接近 AI 技術的人,並不這麼看。如果你去問那些真正做 AI 研究、真正建構模型的人——不是投資某些 AI 應用的投資人,也不是自以為懂 AI 的技術評論員——你會發現,他們一方面對潛力感到興奮,另一方面也非常擔憂。他們擔心國家安全風險,擔心模型對齊問題,擔心 AI 對經濟結構的衝擊。 舉個例子,有人曾提出要在十年內凍結所有監管,或者凍結州一級監管,而聯邦層面又沒有統一框架。這種提案去年夏天就出現過,上周又嘗試了一次,結果再次失敗,因為它極不受歡迎。連普通大眾都清楚,這是一個全新而且極具力量的技術。我可能是對 AI 正面效果最樂觀的那一類人之一。 我寫過一整篇文章《Machines of Loving Grace》,我在裡面說,AI 甚至可能把人類的壽命延長到 150 歲。再往後推,當資料中心裡真的出現“天才之國”,我們將擁有一個比任何人類都更快做出生物學發現的虛擬生物學家;它可能把經濟增速推到 5% 甚至 10%。老實說,我對這項技術的樂觀程度,可能比很多自稱“技術布道者”的人還要高。 但一切如此強大的東西,都不可能沒有巨大的副作用。作為一個社會,我們必須提前思考這些代價。 如果你說未來十年都不去監管這種技術,這就好比你在高速路上開車,然後決定把方向盤拆掉,因為“未來十年我都不需要轉向”——這在邏輯上是說不通的。老闆們不應該只做極致降本,而忽視創造新價值 90%的工作被AI替代,但剩下的10%會被放大10倍主持人: 那我們就談談其中一個最具體、最現實的風險——就業。除了駭客攻擊這些問題,你最近在《60 Minutes》裡也談到過工作崗位。我想知道的不是“有沒有可能”,而是,如果真的出現大量入門級崗位被替代,你認為應該怎麼應對?Dario: 我之所以不斷髮出這些警告,並不是為了當什麼末日預言家,而是因為“發出警告本身,就是解決問題的第一步”。如果我們不提醒自己風險的存在,就相當於在雷區裡閉著眼睛往前走;如果我們看見了地雷,就可以繞開它。我這段時間在認真思考這些問題,在 Anthropic 內部也是一樣。現在 Claude 已經開始為我們寫大量程式碼,我們也在親身經歷“工作如何發生變化”。我把應對方式分成三個層級,從短期到長期,也對應從企業就能推動,到需要整個社會投入更多資源。第一層,是企業自身與客戶層面的調整。 每一家客戶都會面臨同樣的權衡,這不是簡單的“取代或不取代”。一部分場景中,AI 會直接完成原本由人類完成的工作,比如保險理賠流程、KYC 全流程自動化,這些都可以端到端由 AI 完成。結果就是:更高效率、更低成本、更少人力。但還有另一種路徑——那怕 AI 完成了 90% 的工作,而不是 100%,人類的“剩餘 10%”反而會被放大 10 倍,有時候甚至需要 10 倍的人,去完成原來 100 倍產出的事情。問題不在“會不會替代”,而在“企業願不願意更多選擇創造新價值,而不是只做極致降本”。 前一種他們一定會做,我們也不打算攔;但如果他們願意更多做第二種,新增崗位也可能超過被替代的崗位。第二層,是政府的介入。 我並不把“再培訓”視為萬能解法,但它一定是必要選項的一部分。企業會做,企業也必須和政府一起做。但從財政層面看,我認為政府遲早要介入。我不確定具體是稅收工具,還是其他政策工具。但在一個高速增長的世界裡,我們曾做過一份報告,即便是今天這些模型,也已經能讓生產率每年提高 1.6%。這幾乎意味著生產率的翻倍,而且模型還在不斷變強。我認為未來有可能到 5%,甚至 10%。 這是一塊極其巨大的“蛋糕”。如果財富過度集中,這塊蛋糕本身也足夠大,大到我們完全有條件照顧到那些並未直接從 AI 中受益的人。第三層,是更長期的社會結構問題。 如果一個社會真正建構出了強大的 AI,它的運行方式必然會發生變化。回到凱恩斯在《我們後代的經濟前景》中提出的“技術性失業”,他設想他的孫輩也許每周只需要工作 15 到 20 個小時。這是一種完全不同的社會結構。當然,總有人會選擇拚命工作,但是否可能出現這樣一個世界:對很多人來說,工作不再是生活的絕對中心,意義的來源發生轉移,工作不再只是為了生存,更偏向於實現感?這種可能性真實存在。 我不是在提任何自上而下的規劃,我只是認為,社會終究會在後 AGI 時代,自己找到新的運行方式。這三層變化,從企業層面最容易、最快發生,到政府層面需要共識,再到社會結構層面最慢、最難推進。但未來很多年裡,我們三件事都必須一起做。主持人: Dario,我真心希望你還能再回來,和我們繼續討論這三件事該怎樣一步一步落地。非常感謝今天這場精彩的對話。Dario: 謝謝你,Andrew。謝謝大家。 (51CTO技術堆疊)
AI泡沫要破?巨佬顛覆認知的觀點來了!
大模型的決戰越來越激烈了!Google的崛起令OpenAI感到恐懼,並醞釀新的大動作!OpenAI直接拉響警報,推遲賺錢的廣告業務,也要把所有資源梭哈到ChatGPT的改進上。現在的AI圈子,像是星球大戰前夜,由於恐懼,每個人都把手指扣在了扳機上。兵荒馬亂的年代,蔡崇信在香港大學爐邊對話中,拋出了非常反直覺的觀點:現在美國人定義誰贏得AI競賽的方式,純粹是看大型語言模型,我們不看美國定義的AI競賽。當所有人都在盯著誰的模型參數大、誰的算力強時,蔡崇信卻認為——勝負手根本不在這裡。如果不看模型,這場兆賭局的贏家到底看什麼?中國手裡到底還有沒有牌?看完發現,原來大佬眼裡的世界,和我們看到的完全不一樣。1中國AI的真正優勢現在美國矽谷大模型怎麼算輸贏?很簡單:看誰的“大語言模型”更強、更聰明、參數更多。今天是OpenAI遙遙領先,明天Anthropic發個新版本追平,後天Google又搞個大新聞。大家都在卷模型,彷彿誰的模型智商高了一點,誰就統治了世界。但在蔡崇信看來,事實未必如此。他在演講中說了這麼一句極具穿透力的話:"The winner is not about who has the best model. The winner is about who could use it the best in their own industries, in their own lives."(真正的贏家不是誰擁有最好的模型,而是誰能在自己的行業、自己的生活中把它用得最好)這句話什麼意思?打個比方。如果這是一場賽車比賽,美國人現在拚命在比誰的發動機馬力大。但蔡崇信告訴你,贏家不是那個造出萬匹馬力發動機的人,而是那個能把發動機裝進車裡、開著車去送貨、去載客、去賺到真金白銀的人。這個判斷的底層邏輯是:AI的真正價值在於滲透率。中國國務院的AI規劃就體現了這一務實思路——到2030年,AI智能體和裝置的普及率達到90%。中國憑什麼能普及得更快?蔡崇信列出了幾個核心底層邏輯。我們總擔心晶片被卡死,但蔡崇信告訴我們:決定勝負的,是那些基礎到你根本不會關注的領域。1.被低估的電力成本AI訓練和推理,本質上是在燒電。中國的電力成本,比美國低40%。為什麼?中國的國家電網每年投入900億美元的資本支出,而美國只有300億美元。電費低40%,意味著AI應用成本可以大幅低於對手。這是最基礎、最硬核的AI能源優勢。2.建造資料中心的成本低60%在中國建造資料中心的成本要便宜60%,這還不包括購買晶片、廉價GPU的成本。3.工程師紅利晶片可以封鎖,但人才你鎖不住。全球範圍內,幾乎近一半的AI科學家和研究人員擁有中國大學的學位——無論他們在美國公司、中國公司還是世界任何地方工作。蔡崇信說在最近剛看到一個社交媒體帖子,一個在Meta工作的非華裔員工抱怨說,他所在的AI團隊每個人都在說中文,用中文交流想法,他聽不懂。這意味著很多想法的分享和交流在全球AI領域正在用中文進行。這是第一次,中文成為一種優勢!現在,懂中文在AI世界變成了一個優勢。4.最反直覺的優勢:匱乏,逼出內功這是最讓人熱血沸騰的一點:缺乏頂級GPU,反而創造了“飢餓優勢”。美國人資源充足,程式碼寫得爛一點也沒關係,硬體能扛。但中國團隊呢?硬體受限,就必須在系統層面、演算法層面做到極致最佳化,把效率摳到最高。蔡崇信特別點名了爆火的DeepSeek。他說這就是被逼出來的奇蹟。2開源為什麼會贏?蔡崇信還給出了一個對未來的深度判斷,也是這場演講的重中之重。蔡崇信相信中國公司對待大語言模型的方法——即開源——將加速AI的採用,並將真正實現AI的普及,從而使更廣泛的社會受益。開源如此重要的原因是,它成本低廉,使用開源模型實際上不花一分錢。AI的未來,是像OpenAI那樣搞“黑箱子”(閉源),還是像阿里、Meta那樣搞開源?蔡崇信斬釘截鐵:開源模型,將擊敗閉源模型。為什麼?不是因為開源技術更先進,而是因為它更懂人性。他舉了一個極其生動的例子:假設你是沙烏地阿拉伯的國王,你想發展自己國家的AI,你有兩個選擇:用OpenAI的API:你得付一大筆錢,把你的資料傳給美國公司。然後呢?你不知道他們怎麼處理你的資料,你也不知道這模型裡面有什麼貓膩。這就是一個Black Box(黑箱)。用開源模型(比如阿里的Qwen):你直接下載程式碼,部署在你自己的私有雲上。免費,而且資料不出國門,完全可控。這就叫"主權AI",意思是它是我們自主開發的AI。在全球地緣政治這麼複雜的今天,誰願意把命脈交到別人手裡?無論是政府還是大企業,只要稍微算一下帳,稍微考慮一下安全,都會傾向於開源。開源模型有三大殺手鐧:成本、主權、隱私。這三座大山,是閉源模型很難跨越的。3AI時代,普通人該如何應對?蔡崇信給了三條極具實操性的建議,特別是關於“學什麼”,他的觀點顛覆了很多人的認知。1.提出正確的問題比回答更重要在技能方面,蔡崇信認為要學習如何獲取知識,學習如何分析和思考,還有一個重要的技能是提出正確的問題。以前我們上學,老師獎勵那些能快速回答問題的人。但在AI時代,回答問題是機器的事,機器的知識庫比你大多了。蔡崇信強調:"Asking the right question is more important than finding the answer." (提出正確的問題,比找到答案更重要)你要學會的是如何給AI下指令,如何拆解問題。這叫“Prompt Engineering”(提示工程),這是未來人類的核心競爭力。2.還要不要學程式設計?這是目前爭議最大的話題。輝達的老黃說“以後沒人需要學程式設計了”,對著手機說話就行。蔡崇信反對這個觀點。他說:要學!必須學!但他給出的理由:"The purpose is not to actually operate a machine. The purpose is going through that thinking process."(目的不是為了去操作機器,而是經歷那個思考過程)學程式設計,不是為了讓你去寫程式碼(那活兒AI幹得比你好),而是為了訓練你的邏輯思維。甚至,他建議大家去學好Excel電子表格。為什麼?因為你要把一個複雜的公式寫對,讓數字自動跑出來,這本身就是一種嚴密的邏輯訓練。你要訓練的是腦子,而不是手速。3.選什麼專業?如果你的孩子現在要上大學,蔡崇信推薦了三個方向:資料科學:其實就是統計學的升級版。未來是資料爆炸的時代,世界越數位化,你或公司獲取的資料就越多,理解如何管理和分析資料非常重要。心理學和生物學:在做了資料之後,你還想觸及人性的一面,心理學的研究很重要。心理學和生物學幫助你理解人腦是如何工作的,它仍然是最高效、最節能的"機器",理解大腦如何工作非常重要。材料科學:現在很多孩子不學電腦科學,而是在學材料科學。未來世界正被位元(數字資訊)主導,但未來讓位元移動更快的是原子(物理材料)。理解原子如何工作將會非常重要,人們製造半導體,未來半導體領域將會有很多創新。所以材料科學將是一個有趣的學習方向。4AI是泡沫還是未來?AI是否是下一個網際網路泡沫?蔡崇信的回答很哲學,關於泡沫,他認為有兩個概念:真正的泡沫和金融市場泡沫。金融市場泡沫:不知道是否存在金融市場泡沫,因為股票估值更像一門藝術。即使有既定的理論,你可以給一隻股票50倍的市盈率,因為你認為增長率非常高,這合理嗎?我不知道,可能存在與AI相關的金融市場泡沫。技術泡沫:AI現像是真實的。人們正在建造的所有基礎設施,投入到模型開發中的所有研發資源,都不會浪費,因為這是一個真實的現象。就像網際網路一樣,在2000年3月左右,網際網路泡沫破裂了,那是金融市場泡沫破裂,但今天的網際網路就在這裡,事實上網際網路現在更強大,所以技術本身不是泡沫。蔡崇信的這次演講,給人最大的感受是,這場比賽才剛剛開始。這不是一場百米衝刺,看誰起跑快;這是一場馬拉松,看誰能把技術真正融入到這片土地的每一個角落,看誰能用更便宜的電、更務實的態度、更開放的胸懷,去擁抱這個未來。"Focus on the application, not just the model."(關注應用,而不只是模型)這,或許才是中國AI破局的真正答案。對於個人來說,也許在未來,AI將成為成為我們的夥伴。正如蔡崇信所言:AI的下一個重大轉變是當人們開始不再僅僅將AI視為工具,而是作為朋友。現在AI似乎更像一個工具,我們都想用它來讓自己更高效,讓公司更高效。AI已經在幫助我們編碼,所以我們不需要那麼多軟體工程師。但是,AI何時能成為你的夥伴?那時,如果大多數人開始像對待另一個人一樣看待AI,那將真正改變世界,改變行為。有時想想這很可怕,但我看到這正在發生。 (ETF進化論)
字節新視訊模型發佈!時空理解力斷崖領先,碾壓Gemini3 Pro,GPT-5!
大模型的另一條主脈絡又開始發力了。AI 視訊模型,現在已經進化到不僅可以看“OCR”畫面,甚至都開始“會剪片、懂劇情、還能當導演了”!昨天晚上,一個叫 Vidi2 的視訊大模型,把“AI 剪輯”的上限,直接抬到了一個很多內容創作者都還沒意識到的新高度。做短影片、影視剪輯、劇情二創、內容工業化的朋友,必須看過來。比如,你打開一段視訊,只需要輸入一句話:“XX 角色從跪姿站起來。”下一秒,AI 就可以在一段光線昏暗、人物複雜的畫面中:精準定位動作發生的時間段在關鍵幀上,用邊界框精準圈出目標人物清楚地區分“誰在動、誰只是背景”這就是今天小編注意到的一款視訊模型:字節跳動最新發佈的——視訊理解大模型 Vidi2 的真實能力。可以看出,視訊AI圈已經開啟了2.0角逐的賽點:以前卷“會生成”,現在開始卷視訊的“理解”能力了。字節背書,來看看Vidi2有何不同?Vidi2 是字節跳動推出的第二代多模態視訊理解與生成大模型。(言外之意,主打視訊理解和創作。)它不是“只會生成畫面”的視訊模型,而是一個能同時理解:畫面、聲音、語言、時間結構、人物關係、動作因果的統一視訊理解系統。再來從技術規格看,它的參數規模只有 12B,其中主幹網路採用 Gemma-3,輸入模態支援:文字 + 視訊 + 音訊。而專註解決的核心任務都是面向真實場景的複雜問題:長視訊理解 + 細粒度時空定位 + 時間檢索 + 視訊問答。之前大家的槽點更多的還是:“這個畫面像不像”,而Vidu2試圖去回答一個更本質、更高級的問題:視訊裡,什麼時候發生了什麼事,是誰幹的,前因後果是什麼?它究竟能做到那些事?話不多說,我們直接從應用層來來看,用這個新模型,我們具備了那些新能力。(1)自動剪“高光片段”,還知道怎麼起標題。你丟給它一個 1 小時的視訊,它可以:自動找出最有資訊密度、最有情緒張力的片段直接生成對應的短影片同時給你配好標題不得不說,這項能力已經越過“輔助剪輯”那條線,而是已經可以接管平時我們大量的基礎剪輯工作。(2)而且,它還可以“看得懂人物和劇情因果”。比如,它能理解這種複雜關係:A 想打 B,結果打偏了,誤傷了 C。人類聽起來這像小兒科的問題,但這件事對 AI 來說極難。這意味著它已經同時具備:人物識別、動作理解、空間位置判斷、事件因果推理。這也是它能做劇情剪輯、人物線索剪輯、衝突線剪輯的前提。(3)它能“一邊看視訊,一邊精準框選目標”。給它一句話:“那個穿紅衣服、在爭吵中突然站起來的人”它可以同時輸出:這一幕發生在 第幾分第幾秒那個人在畫面中的 精準框選位置這意味著什麼?意味著它可以做:自動多機位切換智能構圖裁剪人物跟隨取景直播切畫面的自動導播剪輯、導演、攝像,這幾條線,第一次開始被同一個 AI 能力同時覆蓋。基準測試性能超過GPT-5、Gemini 3 Pro為衡量模型在真實複雜場景中的進展,Vidi2 專門建構了兩個面向實際應用中““長視訊 + 時空理解””的核心基準:VUE-STG(用於長時間跨度下的精細時空定位)與 VUE-TR-V2(用於開放式時間檢索)。團隊直接將 Vidi2 與行業頂流過招,包括:Gemini 3 Pro、GPT-5。結果是:Vidi2 在核心視訊理解與時空定位任務上,性能是“斷崖領先”的。在 STG 任務上,Vidi2 取得了當前最優表現,vIoU 達到 32.57,tIoU 達到 53.19。而 Gemini 3 Pro在前者只得到了 5.5 分,而 GPT.5 的視訊理解能力在 tIoU 的跑分只有 Vidi2 的一半 27.5。這是少有的,在視訊理解這個高難度賽道上,正面贏過通用大模型的案例。其次,在檢索任務方面,其整體 IoU 達到 48.75,即便在 超長視訊(>1 小時) 場景下,依然 領先主流商業模型 17.5 個百分點。此外,在視訊問答任務上,儘管 Vidi2 的主要最佳化方向集中於定位與檢索能力,但其綜合理解能力依然保持強勢:在 VideoMME 基準上取得 63.5 分,在 Long VideoBench 上取得 54.7 分,展現出紮實的多模態推理能力。模型已整合到字節產品基於 Vidi2 的核心能力,字節跳動已經建構出一套可規模化落地的實用工具體系。統一的“定位 + 檢索”技術管道,已經能夠穩定支援多項自動化視訊編輯能力,包括:高光片段提取具備故事理解的智能剪輯內容感知的智能構圖重裁自動多視角切換更重要的是,這一整套能力,已經可以在消費級硬體上穩定運行。目前,相關技術已經被直接應用到實際產品中:TikTok 的 Smart Split 功能,已經能夠實現 自動剪輯、智能構圖重裁、自動加入字幕,並將長視訊一鍵轉化為適合 TikTok 傳播的短影片片段。另一款工具 AI Outline,則面向內容創作者,支援將簡單提示詞或熱門話題,自動轉化為結構化的標題、開頭與內容大綱,選題 → 起稿 → 結構化,開始變成一條自動化流水線,顯著降低創作門檻。一位老外看到後,非常興奮:正“這看起來太厲害了,我真心希望有一天我們可以通過提示詞就實現帶自訂格式的自動視訊剪輯,那將徹底改變一切。”寫在最後最後有兩點覺得我們需要注意的。首先,視訊創作的工作流已經發生了全鏈路的變化。如果我們對比過去,視訊創作是:人找素材 → 人看完 → 人選片 → 人剪 → 人調構圖 → 人加字幕可隨著AI視訊工具的能力愈發完善,現在正在變成:AI 看 → AI 選 → AI 剪 → AI 構圖 → 人做判斷和風格這意味著業界原來的許多層面的門檻已經抹平了。越接近執行的剪輯、素材製作已經不再是高門檻,而判斷、敘事、風格、審美,開始變成唯一不可替代的東西。其次,視訊 AI 的競爭,已經悄悄“換賽道”了。從Google的 Veo,到生數科技的 Vidu,再到字節的 Vidi2,整個行業的重心正在發生轉移,正如開頭所提到的。很明顯,上半場,AI圈拼的是,誰能生成更逼真的畫面;而下半場,大家已經在推向新的敘事:誰能更精準地理解故事、控制結構、定位細節。而字節 Vidi2 的發佈,再一次將“理解與控制”拉到視訊 AI 的又一個高度。Github地址:https://github.com/bytedance/vidihttps://bytedance.github.io/vidi-website/ (51CTO技術堆疊)
馬斯克:Grok 5有10%機率實現AGI;新AI模型可鎖定致病突變|數智周報
▎(11月24日~11月30日)分析師:OpenAI旗下Sora每天燒錢1500萬美元;華為雲進行組織調整,周躍峰出任華為雲CEO;騰訊混元OCR模型宣佈開源;OpenAI:已將Mixpanel從生產環境中移除……觀點科技部部長陰和俊:要部署實施一批國家重大科技任務,全鏈條推進重點領域關鍵核心技術攻關取得決定性突破科技部部長陰和俊表示,要強化高品質科技供給,引領現代化產業體系建設。堅持“四個面向”,部署實施一批國家重大科技任務,全鏈條推進重點領域關鍵核心技術攻關取得決定性突破,加強基礎研究戰略性、前瞻性、體系化佈局。強化主體協同,推進企業主導的產學研深度融合。要統籌國家戰略科技力量建設,強化企業科技創新主體地位,支援企業牽頭組建創新聯合體,更多承擔國家科技攻關任務。加快培育壯大科技領軍企業,支援高新技術企業和科技型中小企業發展。劉鐵岩:AI或成獨立科學家,人機協同將開啟科研新紀元2025國際人工智慧科學家大會(ICAIS 2025)上,北京中關村學院院長、中關村人工智慧研究院理事長劉鐵岩談及AI成為獨立“科學家”的可能性時指出,未來的科研教育與人才培養,將超越純粹的“人力驅動”,邁入“人機協同、碳矽融合”的新階段——人類的“碳基智慧”蘊含著意識、靈感與創造,機器的“矽基智能”承載著不知疲倦的分析、計算與最佳化,二者的深度融合,將有望超越生物侷限,開啟一個人類與機器優勢互補、協同進化的新時代。阿里巴巴CEO吳泳銘:未來三年內不太可能出現人工智慧泡沫阿里巴巴CEO吳泳銘在財報電話會上表示,未來三年內不太可能出現人工智慧泡沫。未來三年,人工智慧資源整體將處於供不應求的狀態。摩根士丹利基金:AI應用擴張化解巨額投入摩根士丹利基金人士針對AI資本投入與產出的平衡性問題表示,最悲觀情景是資本投入過度超前,但隨著AI應用的不斷推出與擴張,使得投入與產出達到平衡;同時美股AI的長期發展趨勢並未改變。賽富時CEO:準備棄用ChatGPT,GoogleGemini 3已完全超越軟體公司賽富時(Salesforce)首席執行官馬克·貝尼奧夫最新表示,他將棄用OpenAI的ChatGPT,轉而使用Google最新發佈的人工智慧模型Gemini 3,並稱Gemini 3在推理、速度和多模態能力方面實現了“瘋狂”的飛躍。馬斯克:Grok 5有10%機率實現AGI特斯拉CEO埃隆·馬斯克表示,其麾下人工智慧(AI)公司xAI即將推出的Grok 5模型有10%的機率實現通用人工智慧(AGI)。他認為,實現人類級推理能力的關鍵不在於競爭對手使用的靜態訓練資料集,而是即時資料。OpenAI前首席科學家Ilya:大模型“大力出奇蹟”見頂,AI正重回“科研時代”OpenAI聯合創始人兼前首席科學家、Safe Superintelligence(SSI)創始人Ilya Sutskever在最新訪談中指出,目前主流的依賴“預訓練 + Scaling”(即不斷堆資料、參數和算力)的AI發展範式已經觸及瓶頸。儘管大模型在各類評測中表現驚豔,但在真實世界任務中泛化能力薄弱,甚至會陷入重複犯錯的怪圈,這暴露出當前方法的根本缺陷:過度最佳化特定指標,卻缺乏類似人類的深層理解與內在價值判斷。他認為,AI正從“規模時代”重新回歸“科研時代”,下一階段的突破不在於更大模型,而在於重構訓練範式,尤其是如何賦予模型持續學習、自我糾正和穩健泛化的能力。中國銀河證券吳硯靖:2026年模型平權將推動人工智慧應用從AI賦能走向AI原生中國銀河證券研究所所長助理、電腦首席分析師吳硯靖表示,2025年電腦行業指數整體呈現“先揚後抑、震盪輪動”的走勢,展望2026年行業將呈現幾大特徵:一是模型平權趨勢加速,國產算力滲透率持續提升;二是AI Agent將在2026年呈現結構性加速落地的趨勢;三是模型平權推動AI應用從AI-Enabled(AI賦能)走向AI-First(AI原生),通過三維驗證體系來篩選AI-First型企業,重點關注五大AI應用方向,即AI-First端側AI產業鏈機會凸顯、AI-First創意與內容生成工具類、AI-First驅動的企業級AI智能體、AI-First垂直行業專家解決方案類、AI-First社交與陪伴類。阿里千問應用負責人吳嘉:AI助手比拚的是智力水平阿里巴巴集團副總裁吳嘉作為千問應用負責人首次公開露面。他表示,公眾對AI助手的需求一直沒有被很好的滿足。“AI助手比拚的是智力水平,是辦事能力,而不應只是聊天陪伴的機器人。”日前,阿里千問公測僅一周,下載量即突破1000萬。千問模型全球下載量突破7億次,超越Llama、Deepseek等模型。吳嘉表示,千問的快速增長代表著AI應用的爆發來到一個關鍵時刻。雷軍:所有產業都值得用AI再做一遍小米集團創始人、董事長雷軍表示,下一個五年,人工智慧將深刻影響傳統產業。“所有產業都值得用AI做一遍。”雷軍表示,人工智慧與傳統產業深度融合,將會開啟一個新的兆級大市場,一家公司不可能掌握所有環節,而是要與最強的夥伴攜手,取長補短,帶動整個產業鏈共同升級。港交所CEO陳翊庭: 探索利用AI提高發行稽核效率在深圳啟幕的2025大灣區交易所科技大會上,港交所CEO陳翊庭致詞時提到,資本市場正在邁入“人工智慧+”時代,港交所已將人工智慧技術應用於日常的辦公營運,節省了很多處理文件和資訊整理的時間,提升了辦公效率;上市科在審閱上市公司年報的過程中也採用了一些人工智慧技術,可以更高效地識別資訊披露違規的情況。財報知乎:第三季度營收6.59億,非公認會計準則經營虧損同比縮小16.3%知乎發佈2025年第三季度業績報告。報告顯示,知乎第三季度營收6.59億元,非公認會計準則經營虧損同比縮小16.3%。報告期內,付費閱讀業務貢獻3.86億元營收,佔比達到58.5%;行銷服務收入達到1.89億元,佔比為28.7%,包括職業教育、消費品等在內的其他業務貢獻8390萬元收入,佔比為12.8%。阿里巴巴:第二財季營收2478.0億元,高於預估;雲智能集團收入398.2億元,同比增長34%阿里巴巴集團發佈2026財年第二季度財報,實現營收2478.0億元人民幣,預估2452億元人民幣;調整後淨利潤103.5億元人民幣,預估168億元人民幣;調整後每ADS收益4.36元人民幣,預估6.34元人民幣。AI+雲與消費兩大核心業務本季度持續實現強勁增長。第二季度雲智能集團收入398.2億元人民幣,同比增長34%,市場預估379.9億元人民幣。其中,AI相關產品收入已連續九個季度實現三位數同比增幅,阿里雲持續擴大AI雲市場第一優勢,份額超過第二至第四名的總和。AI伺服器需求強勁推動戴爾科技Q3營收創新高戴爾科技公佈的2026財年第三季度財報顯示,該公司當季營收同比增長11%至270.05億美元,創下歷史新高,但不及分析師普遍預期的272億美元;在Non-GAAP會計準則下,經營利潤為25.03億美元,同比增長11%,淨利潤為17.62億美元,同比增長11%;調整後的每股收益為2.59美元,好於分析師普遍預期的2.48美元。戴爾表示,在第三季度,公司獲得了123億美元的AI伺服器訂單,出貨了價值56億美元的AI伺服器,季末積壓訂單達184億美元。該公司還將全年AI伺服器出貨預期從200億美元上調至250億美元,同比增長超150%。億航智能2025Q3財報:營收9250萬元,維持全年5億元的營收指引不變eVTOL製造商億航智能發佈2025年第三季度業績,公司第三季度實現營收9,250萬元人民幣,交付42台無人駕駛eVTOL,涵蓋41架EH216系列產品以及首架VT35。由於客戶的採購計畫大多按年度規劃,且大部分交付安排集中在第四季度完成,億航智能維持全年5億元的營收指引不變。國內資訊阿里千問公測一周下載量破千萬阿里旗下的AI助手千問App公測一周,下載量已突破1000萬次,超越ChatGPT、Sora、DeepSeek成為史上增長最快的AI應用。此前,阿里巴巴於11月17日突然啟動千問APP公測,上線後僅三天千問APP就衝入蘋果App Store免費總榜前三。騰訊混元OCR模型宣佈開源騰訊混元推出全新開源模型HunyuanOCR,參數僅為1B,依託於混元原生多模態架構打造,獲得多項業界OCR應用榜單SOTA(最先進水平)成績。晨光文具與飛書達成戰略合作晨光文具與飛書在上海正式簽署戰略合作協議,重點在效率辦公和AI業務提效領域展開深度協作。後續,晨光文具將全面接入飛書生態,打通內部資訊壁壘、沉澱組織知識經驗。百度新設兩個大模型研發部,直接向CEO匯報百度發佈設立技術研發組織相關公告,新設基礎模型研發部,負責研發高智能可擴展的通用人工智慧大模型,由吳甜負責;新設應用模型研發部,負責業務應用場景需要的專精模型調優和探索,由賈磊負責。王海峰繼續擔任CTO、TSC主席、百度研究院院長。以上部門均向百度CEO李彥宏匯報。阿里巴巴:過去4個季度在AI+雲基礎設施的資本開支約1200億元人民幣阿里巴巴集團首席財務官徐宏表示,阿里巴巴的核心業務收入保持強勁增長,AI收入在雲外部商業化收入佔比提升,客戶管理收入同比增長10%。阿里巴巴將利潤及自由現金流投向未來佈局,短期盈利能力預計將有所波動。過去4個季度,阿里巴巴在AI+雲基礎設施的資本開支約1200億元人民幣。中國科學院工業人工智慧研究所成立中國科學院工業人工智慧研究所在江蘇南京成立。該研究所聚焦國家戰略和產業創新發展重大需求,承擔工業人工智慧從頂層設計到體系落地的全鏈條創新任務,建構“技術引領—平台整合—賦能閉環”的協同創新體系,推動人工智慧賦能製造業高品質發展,著力打造智能製造領域國家戰略科技力量。豆包語音對話功能更新,具備思考能力豆包語音對話功能近日更新,可以說4種地道方言,包括粵語、四川話、東北話及陝西話。據悉,該功能借助豆包語音模型方言遷移技術,實現單音色說多方言,且具備思考能力,可根據使用者意圖,靈活切換方言。深圳市“AI+勞動仲裁”智能輔助辦案系統上線中國首個“全案由覆蓋、全流程賦能、全方位支撐”的勞動爭議仲裁智能輔助辦案系統在深圳市勞動人事爭議仲裁院正式上線。系統啟用後,仲裁員閱卷效率提高50%,裁決書製作時間減少約50%,整體辦案周期明顯縮短。華為雲進行組織調整,周躍峰出任華為雲CEO華為雲進行了組織調整,將華為雲研發組織切換到ICT組織下,並成立“基礎設施雲服務”“Data&AI雲服務”“資料庫雲服務”“安全雲服務”“HCS”5個領域的雲研發產品線。調整後,華為雲董事長為張平安,而華為資料儲存產品線總裁周躍峰出任華為雲CEO。DeepSeek發佈可自驗證數學模型DeepSeekMath-V2DeepSeek推出新型數學推理模型DeepSeekMath-V2,採用可自我驗證的訓練框架。該模型基於DeepSeek-V3.2-Exp-Base建構,通過LLM驗證器自動審查生成的數學證明,並利用高難度樣本持續最佳化性能。在IMO 2025和CMO 2024中均達到金牌水平,Putnam 2024獲118/120分。團隊表示,該成果驗證了自驗證推理路徑的可行性,為建構可靠數學智能系統提供新方向。模型程式碼與權重已開源,發佈於Hugging Face及GitHub平台。摩爾線程發佈Torch-MUSA v2.7.0,持續增強AI模型訓練與推理支援近日,摩爾線程正式發佈PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.7.0,新版本在功能整合、性能最佳化與硬體支援方面實現進一步突破。Torch-MUSA在一個月內連續完成v2.5.0和v2.7.0兩次版本更新,體現了摩爾線程在MUSA生態建設上的持續投入與快速迭代能力。科大訊飛旗下淮南公司註銷天眼查工商資訊顯示,近日,淮南科大訊飛資訊科技有限公司登記狀態由存續變更為註銷。淮南科大訊飛資訊科技有限公司成立於2014年12月,法定代表人為張友國,註冊資本1000萬人民幣,經營範圍包括智慧城市技術研究、體系建設、產品研發、工程建設、營運服務等。股權全景穿透圖顯示,該公司由科大訊飛旗下訊飛智元資訊科技有限公司、淮南市產業發展(集團)有限公司共同持股。平行科技青島智算中心上線,部署“三千卡高性能GPU智算資源池”平行科技青島智算中心11月28日正式上線。該中心由青島市工信局指導,嶗山區政府統籌推進,青島聯通與平行科技共同建設,定位為戰略級人工智慧基礎設施。青島智算中心一期部署“三千卡高性能GPU智算資源池”,具備膠東半島 1ms 超低時延等優勢,為智慧海洋、智能智造等企業研發場景和高校教學科研等場景提供高品質和低成本的普惠算力支撐。發佈儀式上,青島聯通與平行科技聯合向中國海洋大學捐贈20萬元GPU卡時算力資源,用於探索海洋觀測資料處理、氣候模型研發等前沿方向。北京AI產業規模今年將超4500億元北京市科學技術委員會、中關村科技園區管委會今天(11月29日)正式發佈《北京人工智慧產業白皮書(2025)》。《白皮書》資料顯示,2025年上半年,北京全市人工智慧核心產業規模2152.2億元,同比增長25.3%。初步估算2025年全年,產業規模有望超過4500億元。中國首支AI領域孵化培育型創新基金啟動12月29日,在2025 Xᴬᴵ科技節產業投資主題論壇上,中關村兩院AI科創基金暨北緯兆資金池發佈。其作為中國首支AI領域孵化培育型創新基金,由中關村學院與中關村人工智慧研究院與上海大鈞資產管理中心共同發起。基金秉持“投早、投小、投好、投AI”策略,創新採用“用AI投資AI、用AI孵化AI”模式,並配套“前店後廠”深度賦能機制,提供“科學家、研究中心、算力、資料、產業資源”全周期投後服務,致力於打造完整的AI創新生態。海外消息亞馬遜將允許企業測試Leo衛星服務,與Starlink展開競爭亞馬遜將開始允許企業測試其最近重新命名的太空網際網路服務,與SpaceX的Starlink競爭。公司表示,部分企業將能夠在服務的企業預覽階段測試亞馬遜Leo生產硬體和軟體,測試計畫將允許公司收集反饋,並為特定行業量身定製解決方案,以便在更大規模的推出前做好準備。據悉,亞馬遜Leo提供企業級的效能、功能及能力,適用於私營和公營部門的客戶。Leo Ultra是現行生產中最快的客戶終端,下載速度可達1Gbps,上傳速度可達400 Mbps。分析師:OpenAI旗下Sora每天燒錢1500萬美元據分析師估算,OpenAI旗下的AI視訊生成應用Sora,每天的算力成本高達1500萬美元,一年約50億美元,相當於OpenAI全年收入的四分之一。Sora自9月底上線後,一周下載量破百萬,10月底達到400萬,使用者生成大量視訊,但這也導致成本急劇上升。每生成一條10秒視訊,成本約1.3美元,按每天1100萬條的生成量計算,相當於每天消耗1500萬美元。HelloBoss發佈首個招聘全流程AI Agent總部位於東京的初創企業 NGA 宣佈,旗下人工智慧招聘平台 HelloBoss 正式推出首款覆蓋求職與招聘全流程的AI智能體(AI Agent)產品。據悉,該產品在個人端可提供AI簡歷識別與生成、人崗AI匹配及自然語言溝通等功能。企業端則支援AI招聘資訊撰寫、AI自動匹配與溝通初篩、基於簡歷的AI招聘對話輔助等服務。韓國將試點人工智慧系統治理交叉路口堵車韓國警察廳24日說,將於12月啟動一個人工智慧系統試點項目,在首爾部署基於人工智慧的交通攝影機以治理交叉路口堵車問題。新系統採用韓國警察廳研究項目開發的基於人工智慧的視訊分析技術。警方表示,相關技術提高了執法精準性,可以通過單一裝置同時處理闖紅燈、超速和跟車過近等行為,從而減少維護需求、提高效率。韓國警方計畫於2026年在10個長期擁堵的交叉路口安裝類似交通攝影機,並於2027年推廣至全國883個易擁堵路口。亞馬遜內部檔案曝光:力推自研Kiro,排擠外部AI程式設計工具根據一份亞馬遜內部備忘錄透露的資訊,亞馬遜建議其工程師們儘量不使用第三方AI程式碼生成工具,轉而選用自家的解決方案,以此助力7月剛剛推出的專有服務Kiro。新AI模型可精準鎖定人體致病突變美國哈佛大學醫學院與西班牙巴塞隆納基因組調控中心科學家在24日出版的《自然·遺傳學》雜誌上發表研究成果稱,他們開發出一款名為popEVE的人工智慧(AI)模型。該模型能精準鎖定人類蛋白質中最易導致疾病的突變,這一突破有望徹底改變遺傳疾病的診斷方式。據悉,popEVE的研發基於數十萬個不同物種的進化資料及全人類群體的遺傳變異資訊。龐大的進化記錄使該工具能解析約2萬多種人類蛋白質的關鍵區域與可變異區域,從而不僅能識別緻病突變,還能對這些突變給人體造成的危害程度進行排序。投行韋德布什力挺AI浪潮:押注微軟和輝達等十大科技股投行韋德布什證券近日公佈了其推薦的十大科技股名單,這份名單包括微軟和輝達,並明確指出"當前並非人工智慧泡沫"。以丹尼爾·艾夫斯為首的分析師團隊表示,儘管過去幾周人工智慧泡沫論甚囂塵上,但他們觀察到超大規模企業在人工智慧領域的交易流有近20%的加速增長,這源於終端企業客戶正聚焦於推動2026年前的應用場景落地。分析師補充說,"人工智慧革命"仍處於早期階段:隨著更多企業客戶和首席資訊官認識到AI在其組織中的重要作用,下一波AI戰略部署浪潮即將到來。OpenAI:已將Mixpanel從生產環境中移除當地時間11月26日,OpenAI就網站分析服務Mixpanel安全事件公告稱,11月9日,Mixpanel發現攻擊者未經授權訪問了其部分系統,並匯出了包含有限客戶可識別資訊和分析資料的資料集。該事件發生在Mixpanel系統內部,僅涉及部分API使用者的有限分析資料。ChatGPT及其他產品的使用者未受影響。此次事件並非OpenAI系統遭入侵。聊天記錄、API請求、API使用資料、密碼、憑證、API金鑰、支付資訊或政府身份證件均未洩露或暴露。OpenAI表示,作為安全調查的一部分,已將Mixpanel從生產環境中移除,審查了受影響的資料集,並正與Mixpanel及其他合作夥伴緊密協作,以全面瞭解事件詳情及其影響範圍。目前尚未發現Mixpanel環境之外的系統或資料受到影響的證據。融資併購摩爾線程申購,包括公私募、券商等在內共267家機構擬配售“國產GPU第一股”摩爾線程11月24日開始申購,發行價為114.28元/股,創下年內新股發行價格新高。本次公開發行規模為7000萬股。根據發行公告披露,初步詢價階段共有267家網下投資者提交有效報價,涉及配售對象共計7555個,有效申購總量達到704.06億股,網下有效申購倍數高達約1572倍,顯示出機構投資者對其高度熱情。據不完全統計,本次參與有效報價的機構中,公募基金達86家,私募基金約120家,券商亦有30家入場,保險機構為13家。北京市人工智慧產業基金等入股AI辦公工具研發商像素綻放天眼查工商資訊顯示,深圳像素綻放科技有限公司近日發生工商變更,原股東深圳晨源鴻策股權投資基金合夥企業(有限合夥)、深圳極地信天貳期股權投資基金合夥企業(有限合夥)等退出,新增北京市人工智慧產業投資基金(有限合夥)、大象視覺(深圳)科技有限公司等為股東,同時,註冊資本由約285.2萬人民幣增至約333.1萬人民幣。公開資訊顯示,像素綻放是一家AI辦公工具研發商。中國移動旗下基金等入股浪潮電腦科技公司,後者增資至8.4億元天眼查工商資訊顯示,11月20日,浪潮電腦科技有限公司發生工商變更,新增中國移動旗下上海中移數字轉型產業私募基金合夥企業(有限合夥)、山東出版傳媒股份有限公司等為股東,同時,註冊資本由6億人民幣增至8.4億人民幣,增幅40%。浪潮電腦科技有限公司成立於2021年6月,法定代表人為公維鋒,經營範圍包括電腦軟硬體及外圍裝置製造、計算器裝置銷售、電子產品銷售等,現由浪潮集團有限公司、山東浪潮整合電子科技有限公司及上述新增股東等共同持股。政策&趨勢北京:加速推動人形機器人商業化規模化應用落地日前,北京市委副書記、市長殷勇圍繞人形機器人產業發展,深入昌平區、海淀區機器人企業開展調研。殷勇在調研中強調,要把握人形機器人產業發展關鍵機遇,加快前沿技術和基礎理論研究,加大關鍵核心技術攻關力度,推動取得更多突破性成果。持續拓展人形機器人應用場景,用好中試基地和成果孵化平台,加速科研成果從實驗室嚮應用轉化。抓好機器人企業服務保障,圍繞共性技術攻關、開放生態建構、中試平台搭建、應用場景落地等關鍵環節,強化資金、政策、人才等方面支援保障,梯度培育一批重點企業,整合上下游資源,形成產業集聚效應。強化機器人標準引領,加快研製機器人領域行業標準,提升標準制定和實施能力。加強國際交流合作,持續辦好世界人形機器人運動會等品牌活動,支援北京市機器人企業“走出去”,同時吸引國際機構和企業來京交流,共同推動全球機器人產業創新發展。上海市網信辦開展“AI濫用”專項執法工作上海市網信辦在執法辦案工作中發現,部分企業開發使用生成式人工智慧功能,未依法開展安全評估工作、未採取必要的安全防護措施防範違規資訊生成、未採取限制措施防止被濫用,導致相關功能被用於“換臉變聲”“變裝造假”等侵犯他人個人資訊權益行為,產出“開盒”“洗錢”等違法違規內容,以及生成色情低俗圖片等資訊內容。“亮劍浦江·2025”專項執法行動將“整治AI濫用”作為年度治理重點,以執法促合規護航新興產業高品質發展。北京:加快人工智慧輔助診療技術的推廣應用北京市經濟和資訊化局等六部門11月24日印發《北京市促進醫療器械產業高品質發展若干措施》。其中提出,加快人工智慧輔助診療技術的推廣應用。鼓勵醫療機構參考已有人工智慧醫療服務價格項目將新型人工智慧輔助診療技術納入使用。針對國家立項指南目前尚無法相容的創新項目,在確保臨床效果的基礎上,支援醫療機構以“附條件新增”方式立項試行。遴選人工智慧輔助診療產品推廣應用項目,按照不超過工程投資的30%給予支援,最高不超過5000萬元。國家資料局:支援資料交易所探索建立全鏈條服務體系國家資料局表示,支援資料交易所(中心)加快探索建立資料流通交易全鏈條服務體系。相關負責人指出,資料交易所是中國首創,在孵化產品服務、合規保障、標準建設、生態培育、推進資料市場與金融市場融通發展、拓展國際合作等方面發揮了積極作用,支援資料交易所在推進資料要素價值釋放中更好找準自身市場定位,提升綜合服務能力,積極推進公共資料產品流通交易,完善資料產品服務價格發現機制,在繁榮資料產業生態等方面作出更大貢獻。工信部組織開展衛星物聯網業務商用試驗工業和資訊化部發佈關於組織開展衛星物聯網業務商用試驗的通知。申請開展衛星物聯網商用試驗的企業,應通過建構衛星物聯網系統,以及業務支撐系統(BSS)、營運支撐系統(OSS)和管理支撐系統(MSS),依法依規在全國範圍開展衛星物聯網業務。衛星物聯網商用試驗的服務對象為利用衛星物聯網開展應用的企事業單位,主要包括工業、交通、能源、農業、應急等領域中利用衛星物聯網開展資料採集和傳輸的行業使用者。通過開展衛星物聯網業務商用試驗,豐富衛星通訊市場供給、激發市場主體活力、提升行業服務能力、建立安全監管體系,形成可複製可推廣的經驗和模式,支援商業航天、低空經濟等新興產業安全健康發展。北京“十五五”規劃:推動資料綜合性立法,推進“資料要素×”行動和高品質資料集建設《中共北京市委關於制定北京市國民經濟和社會發展第十五個五年規劃的建議》提到,高水平建設“數智北京”。建立資料要素綜合試驗區,建設國家資料管理中心、國家資料資源中心和國家資料流通交易中心。建立健全資料基礎制度,推動資料綜合性立法,推進“資料要素×”行動和高品質資料集建設,深化資料資源開發利用。開展國家資料流通基礎設施和全國一體化算力網建設先行先試,適度超前建設新型基礎設施,實施傳統基礎設施數智化改造升級。建設數智北京創新中心,促進資料、技術、場景聯動創新。推進城市全域數位化轉型,加快建設數字城市,提升“京通”“京辦”“京智”“京策”智慧化服務能力,最佳化“一網通辦”“一網統管”“一網慧治”,提升數字公共服務水平,強化數智賦能城鄉治理。北京“十五五”規劃:培育形成一批行業頭部大模型,建構高性能通用智能體《中共北京市委關於制定北京市國民經濟和社會發展第十五個五年規劃的建議》提到,打造全球數字經濟標竿城市。堅持數字賦能產業、城市、生活,打造引領全球數字經濟發展高地。深入推進數字產業化,做強北京資料集團和國際巨量資料交易所,大力發展數字內容產業。促進實體經濟和數字經濟深度融合,實施工業網際網路創新發展工程,推動企業數位化轉型。培育全球領先的人工智慧產業生態,加強高端晶片、基礎軟體等關鍵核心技術攻關。培育形成一批行業頭部大模型,建構高性能通用智能體。全面實施“人工智慧+”行動,以人工智慧引領科研範式變革,全方位賦能千行百業,完善人工智慧標準體系和應用規範,支援人工智慧企業參與全球競爭。加強人工智慧治理,健全平台企業監管機制,推動平台經濟創新和健康發展。國家統計局:1-10月電腦、通訊和其他電子裝置製造業增長12.8%國家統計局公佈資料顯示,1-10月份,全國規模以上工業企業實現利潤總額59502.9億元,同比增長1.9%(按可比口徑計算)。1-10月份,主要行業利潤情況如下:有色金屬冶煉和壓延加工業利潤同比增長14.0%,電力、熱力生產和供應業增長13.1%,電腦、通訊和其他電子裝置製造業增長12.8%,農副食品加工業增長8.5%,電氣機械和器材製造業增長7.0%,通用裝置製造業增長6.2%,專用裝置製造業增長5.0%,汽車製造業增長4.4%,非金屬礦物製品業增長1.0%,黑色金屬冶煉和壓延加工業同比由虧轉盈,石油、煤炭及其他燃料加工業同比減虧,化學原料和化學製品製造業下降5.4%,紡織業下降6.1%,石油和天然氣開採業下降12.5%,煤炭開採和洗選業下降49.2%。天津“十五五”規劃建議:建設超算網際網路平台和一體化算力調度平台中共天津市委關於制定天津市國民經濟和社會發展第十五個五年規劃的建議發佈,其中提出,加快建設數字天津。深化資料資源開放共享和開發利用,建構全要素資料基礎底座。深入推進國家數字經濟創新發展試驗區、國家新一代人工智慧創新發展試驗區建設,促進實體經濟和數字經濟深度融合,推動平台經濟創新和健康發展。建設超算網際網路平台和一體化算力調度平台,加快資料可信流通、圖形處理器、核心演算法等數智技術創新,研發應用更多行業模型,發展新一代智能終端和智能體,培育智能原生新模式新業態。深入實施“人工智慧+”行動,以人工智慧引領科研範式變革,完善賦能千行百業政策措施,培育智慧文旅、智慧交通、智慧教育、智慧醫療、智慧養老,加快形成智能經濟和智能社會新形態。推動人工智慧應用合規、透明、可信賴。工信部:截至上半年末 中國生成式人工智慧產品使用者規模達5.15億工業和資訊化部消費品工業司司長何亞瓊在新聞發佈會上表示,截至今年上半年末,中國生成式人工智慧產品使用者規模達到5.15億,應用場景持續拓展,人工智慧終端產品競相湧現,未來消費將不再是購買一件商品,更是訂閱一種生活。工信部將從產品創新、場景創新兩個方面發力,推動人工智慧技術在消費品領域加快落地。北京:積極佈局“人工智慧+視聽”領域垂類大模型研發《北京市促進“人工智慧+視聽”產業高品質發展行動方案(2025—2029年)》發佈,其中提出,加快演算法模型突破。積極佈局“人工智慧+視聽”領域垂類大模型研發,支援高校、科研機構與企業合作,加強基礎理論和共性技術研究,引導通用演算法、底層技術、開源系統等共性平台在視聽領域應用,提升面向各類媒體生產場景演算法最佳化與技術迭代能力。聯合打造全國領先的大模型調優工場,全面提升視聽生成、媒體工藝最佳化核心演算法的國際競爭力。重慶:建設全國一體化算力網路成渝國家樞紐節點重慶市人民政府印發《重慶市要素市場化配置綜合改革試點行動方案》,其中提出,強化資料開發利用。發揮企業“資料要素×”主體作用,在重點領域建設一批行業高品質資料集。建設全國一體化算力網路成渝國家樞紐節點,加快推進“疆算入渝”工程,迭代國家(西部)算力調度平台。推進智能網聯汽車“車路雲一體化”試點,打造智能汽車巨量資料雲控基礎平台,建設國家工業網際網路巨量資料區域及行業分中心。建成國家區塊鏈網路區域樞紐。深化中新(重慶)國際網際網路資料專用通道應用。發揮重慶人工智慧學院、重慶通用人工智慧研究院、重慶市醫學影像巨量資料與醫療AI研究中心平台作用,引進和培育資料企業,建設國家級資料產業集聚區。北京人工智慧產業白皮書:各類AI Agent將迎來爆發式增長北京市科委、中關村管委會11月29日發佈《北京人工智慧產業白皮書(2025)》。白皮書預測,能勝任個人助理、企業流程自動化、科學研究助手等角色的各類AI Agent將迎來爆發式增長。具身智能的發展將實現從資訊處理到物理作業的跨越。白皮書分析了人工智慧產業的未來發展趨勢:能勝任個人助理、企業流程自動化、科學研究助手等角色的各類AI Agent將迎來爆發式增長。具身智能的發展將實現從資訊處理到物理作業的跨越。人工智慧將拓展認知能力邊界。世界模型將顯著提升AI系統的泛化能力和可靠性。“AI for Science”的發展將加速科學發現處理程序,有望在各領域催生一系列突破。人工智慧將促進技術普惠發展。端側智能催生應用新藍海,智慧型手機、個人電腦、智能汽車等端側裝置將具備更強的智能處理能力。下周預告2025“人工智慧+”產業生態大會由中國網際網路協會主辦的2025“人工智慧+”產業生態大會定於12月1日—3日在北京中關村國家自主創新示範區展示交易中心舉辦。大會主題為“智賦鏈動 生態共鳴”,旨在搭建一個集“政策解讀、技術展示、需求對接、成果轉化”於一體的綜合性生態平台,聚焦人工智慧應用生態協同中的現實痛點,推動產業各方務實交流。2025人工智慧創新大會光合組織即將於12月17-19日在崑山舉辦2025人工智慧創新大會(HAIC 2025)。目前,會議已吸引超2500家AI產業上下游企業、機構報名參與,覆蓋晶片、計算平台、大模型與智能體、軟體系統及行業應用等全鏈條。依託國家先進計算產業創新中心,光合組織正建構面向國產計算的開放生態,通過產學研用一體化協同,加速AI技術與產業深度融合。數字孿生技術與產業發展大會12月4日,第二屆數字孿生技術和產業發展大會暨場景培育與開放創新大會以“智驅孿生 眾行致遠——共建場景培育和開放新生態”為主題,秉持“全球視野、院士領銜、開放辦會、智匯驅動”理念,將於蘇州工業園區舉辦。AWS re:Invent 2025大會將於2025年12月1日至5日在‌美國拉斯維加斯舉辦,這是亞馬遜雲科技年度最大雲盛會,也是全球雲端運算領域極具影響力的年度技術盛會,Agentic AI將是此次大會的核心焦點。‌多家美股技術公司將公佈最新財報GitLab將於12月2日公佈最新一季財報,Salesforce、snowflake、C3.ai將於12月3日公佈最新一季財報。 (鈦媒體AGI)
最新!AI大模型全鏈路生態技術深度研究報告!2025
我們正處在一個由人工智慧定義的偉大時代。大語言模型如同一場技術海嘯,以前所未有的力量,重塑著世界的每一個角落。程式碼的編寫方式、軟體的互動形態、企業的運作模式,乃至我們對"智能"本身的理解,都在被徹底顛覆和重構。這場變革的深度和廣度,遠超過去任何一次技術革命,它不僅改變著技術的邊界,更在重新定義人類與機器的關係,以及我們創造價值的根本方式。這種能力的平民化,正在釋放全人類巨大的創造潛能。然而,另一方面,技術堆疊的爆炸式增長、知識的快速迭代,也讓我們每個人都深陷於"生怕錯過"(FOMO)的焦慮之中。本文可以能夠幫助您看清全域、理解深度、預見未來的專業報告。在這份白皮書中,我們作為您的行業分析師,系統性地梳理了從全球技術趨勢到中國本土實踐,從底層算力基礎設施到上層應用落地,從核心技術堆疊到開發者生態的全景畫面。第一章:全球AI大模型發展現狀與趨勢進入2025年,人工智慧(AI)的發展浪潮以前所未有的速度和深度重塑著全球科技格局與產業生態。本章節將立足於2024年6月至2025年9月的最新動態,從全球市場概覽、中美技術路線分化和關鍵技術突破三個維度,深度剖析AI大模型發展的宏觀現狀與未來趨勢,為中國的AI開發者和行業從業者提供一幅清晰、權威且具前瞻性的全景圖。1.1 全球AI大模型市場概覽1.1.1 市場規模與增長預測:邁向兆美元的確定性兆美元賽道前景明朗根據國際資料公司(IDC)在2025年9月發佈的最新《全球人工智慧支出指南》,2024年全球在AI領域的IT總投資規模(包括軟體、硬體和服務)已達到3,159億美元。報告以極為樂觀的預期指出,這一數字將在2029年增至12,619億美元,五年復合年增長率(CAGR)高達31.9%。這一預測標誌著AI正從一個前沿技術領域,穩步成長為驅動全球數字經濟的核心引擎,一個兆美元級的龐大產業賽道已然形成。各大研究機構的預測也印證了這一趨勢,儘管由於統計口徑和預測模型的不同,具體數值存在差異,但對市場將維持超高速增長的判斷高度一致。這種共識本身就構成了市場信心的重要來源。表1-1 不同機構對全球AI市場規模的預測中國市場的戰略地位與增長潛力在全球AI版圖的擴張中,中國市場的角色日益凸顯,成為推動全球增長的關鍵力量。根據中國資訊通訊研究院(CAICT)的資料,截至2025年9月,中國AI核心產業規模已突破9000億元人民幣,約佔全球核心產業規模的10%,相關企業數量超過5300家。IDC預測,到2029年,中國在AI領域的總投資規模將達到1,114億美元,五年複合增長率為25.7%,增速持續領先全球主要經濟體。中國市場的獨特優勢在於其龐大的使用者基數、豐富的應用場景和強大的政策支援:區域發展格局:多極化趨勢顯現這種多極化的發展趨勢,使得全球AI生態更加豐富和多元,也為不同地區的開發者和企業帶來了新的合作與競爭機會。1.1.2 技術迭代加速:從"能力"到"可用性"的進化如果說市場規模的增長是AI發展的"量"的積累,那麼技術性能的迭代則是"質"的飛躍,是驅動整個生態發展的根本動力。2025年,AI大模型的技術迭代呈現出明顯的加速態勢,其核心特徵是從單純追求基準測試分數的能力(Capability)提升,轉向更加注重模型在真實世界中的可靠性、安全性和實用性的"可用性"(Usability)進化。這一轉變的標誌性事件便是OpenAI於2025年8月7日正式發佈的GPT-5模型。GPT-5的"智能湧現":重新定義性能天花板GPT-5的官方發佈資料更為具體地展示了這種飛躍。這些基準測試的設計,旨在評估模型在真實世界中解決複雜問題的能力,而非簡單的模式匹配:表1-2 GPT-5與GPT-4在部分關鍵基準上的性能對比從"能力"到"可用性"的進化:更可靠的AI儘管在基準測試上的"屠榜"令人印象深刻,但2025年技術迭代更核心的趨勢,是各大模型廠商將研發重點從單純提升理論性能,轉向解決實際應用中的核心痛點。OpenAI在發佈GPT-5時就反覆強調,其在"減少幻覺、提升指令遵循能力、減少阿諛奉承"等實用性方面取得了重大進展:這種從"能力"到"可用性"的進化,預示看大模型正從一個充滿驚喜但時常犯錯的"天才少年",向一個知識淵博、邏輯嚴謹、態度誠懇的"專家助手"轉變。這為大模型在各行各業的規模化、關鍵性業務中的落地應用,掃清了最核心的障礙,也為開發者基於大模型建構可靠、可信的商業應用提供了堅實的基礎。1.1.3 投資熱潮回歸與結構變遷趨勢一:AI Agent(智能體)成為最大風口如果說大模型是AI的"大腦",那麼AI Agent就是連接這個"大腦"與數字世界乃至物理世界的"手和腳"。具備自主理解、規劃、記憶和工具呼叫能力的AI Agent,被普遍認為是將大模型的潛力從"對話方塊"中徹底釋放出來、實現其全部價值的關鍵。因此,AI Agent在2025年當之無愧地成為了全球資本追逐的最大風口。市場研究機構MarketsandMarkets在其最新報告中預測,全球AI Agent市場規模將從2024年的5.1億美元,以高達44.8%的年複合增長率,增長到2030年的47.1億美元。資本的流向準確地印證了這一趨勢。2025年的明星融資案例幾乎都與Agent相關:資本之所以狂熱追捧AI Agent,是因為它看到了一個清晰的商業模式演進路徑:從提供基礎能力的PaaS(平台即服務),走向提供完整解決方案的SaaS(軟體即服務),最終實現按效果付費的"結果即服務"(Outcome-as-a-Service)。趨勢二:垂直行業應用與"模型+應用"一體化隨著通用大模型能力的普及,單純提供基礎模型API的商業模式面臨著日益激烈的同質化競爭和價格壓力。因此,資本和創業者的注意力開始轉向能夠解決特定行業痛點的垂直應用。這些應用通常基於通用大模型進行深度微調和最佳化,並與行業知識、業務流程深度繫結,從而建立起更高的競爭壁壘和客戶價值。垂直行業解決方案:這些應用具有更清晰的商業模式和更高的客戶付費意願。"模型+應用"一體化策略  :在國內市場,一種"模型+應用"一體化的發展模式尤為突出。以智譜GLM、月之暗面、MiniMax等為代表的AI獨角獸,從創立之初就堅持自己研發底層大模型,並直接面向C端或B端使用者推出創新的應用產品。趨勢三:AI基礎設施(AI Infra)與工具鏈持續火熱隨著模型規模的指數級擴大和應用的多樣化,對高效、低成本、易於使用的AI基礎設施和工具鏈的需求日益增長。AI Infra是支撐上層模型和應用創新的"底座",其重要性愈發凸顯,成為投資的另一大熱點。這個領域的投資可以細分為幾個層面:核心硬體與算力:除了對NVIDIA、AMD等晶片巨頭的持續追捧,資本也開始關注AI晶片領域的初創公司,特別是那些致力於開發新型架構(如存內計算、光子計算、模擬計算)或針對特定工作負載(如稀疏計算、圖神經網路)進行最佳化的公司。此外,隨著國產化替代處理程序的加速,與華為升騰、寒武紀等國產異構算力適配的軟體和工具鏈,在中國市場獲得了巨大的投資機會。模型最佳化與部署平台:提供模型量化、剪枝、蒸餾等最佳化技術,以及Serverless推理服務的公司備受青睞。這些平台的核心價值在於幫助企業以更低的成本、更快的速度部署和運行AI模型。例如,國外的OctoML、Together AI,國內的無問芯穹、中科算網、矽基流動等公司,通過提供跨雲廠商、跨硬體的AI模型部署和加速平台,可以幫助企業將AI推理成本大幅度的降低,極大地推動了AI應用的普及。資料與MLOps平台:高品質的資料是訓練高性能模型的基礎。因此,提供資料標註、資料清洗、資料合成、資料管理服務的公司(如Scale AI, Snorkel AI)持續獲得高額投資。同時,覆蓋AI開發全生命周期的MLOps(機器學習維運)平台,如Weights & Biases, Comet, Arize AI、國產開源Cube-studio等,也成為企業AI團隊不可或缺的工具。它們提供了從實驗跟蹤、模型版本管理到生產環境監控和性能最佳化的全套解決方案,將AI開發從"手工作坊"模式帶向了標準化的"工業化生產"模式,其市場滲透率在2025年大幅提升。企業AI投資的全面復甦這一模式的戰略優勢在於:這種策略的本質,是在AI時代延續美國在傳統軟體和網際網路時代的平台霸權,通過掌控最核心的智能生產資料,在全球AI產業鏈中佔據高附加值的頂端。中國的"開源浪潮"與生態突圍戰略與美國的策略形成鮮明對比,中國幾乎所有頭部的AI廠商和研究機構,包括阿里巴巴(通義千問Qwen系列)、DeepSeek(深度求索)、智譜AI(GLM系列)、零一萬物(Yi系列)、月之暗面(Kimi系列)、騰訊(混元系列)、華為(盤古系列)、元象(Llama中文社區版)等,都在2025年堅定地擁抱了"開放權重"(Open Weights)的開源策略。它們不僅發佈詳細的技術報告,更將訓練好的、性能強大的模型權重向學術界和產業界開放,允許全球的開發者和企業免費下載、在本地部署、進行二次開發和微調。這一策略的背後,是基於中國當前市場環境、技術發展階段和國際競爭格局的深思熟慮,是一場旨在實現"非對稱優勢"和"換道超車"的戰略抉擇:這場開源與閉源的路線之爭,本質上是兩種不同發展哲學和商業模式的博弈。閉源生態追求的是深度、控制和利潤最大化,而開源生態追求的是廣度、活力和生態共榮。短期內,最頂尖的閉源模型在通用能力上仍可能保持微弱的領先;但從長遠看,開源生態的快速迭代、群體智慧和更廣泛的應用滲透,可能催生出更具韌性和多樣性的創新,最終在整體上形成更強的產業競爭力。對於開發者而言,開源意味著更高的自主性、更低的成本和更靈活的定製空間,但也需要更強的技術能力來駕馭和最佳化模型,這對中國的AI人才培養提出了新的要求。1.2.2 開發者生態對比:全球化社區VS本土化平台開發者社區是AI生態的靈魂和活水之源,是技術傳播、知識分享、項目協作和人才成長的核心載體。2025年,中美兩國也形成了風格迥異但同樣充滿活力的開發者生態。美國主導的全球化社區,如GitHub和Hugging Face,為全球AI發展設定了基礎框架和協作模式;而中國崛起的本土化平台,如魔搭(ModelScope)、升思(MindSpore)社區,則在服務本土開發者、適配國產軟硬體方面展現出獨特的價值和強大的生命力。美國主導的全球化社區:以GitHub和Hugging Face為核心美國在AI開發者生態中的領導地位,主要通過兩個全球性的超級平台來體現:GitHub:AI世界的"程式碼基石":作為全球最大的程式碼託管平台,GitHub是整個AI乃至整個軟體世界的基礎設施。幾乎所有重要的AI框架(如Google的TensorFlow、Meta的PyTorch)、核心工具庫(如Hugging Face的Transformers、LangChain)、前沿演算法實現和學術研究程式碼都在此首發和迭代。其生態特點是:基礎性與前沿性:這裡是AI領域最底層、最核心的軟體和演算法創新的主要陣地。全球化協作:全球數千萬開發者在此共同協作,遵循著一套成熟的開源協作規範(如Pull Request、Issue跟蹤),形成了強大的網路效應和集體智慧。研究導向:大量的學術論文都會附上GitHub程式碼連結,使其成為連接學術研究與產業實踐的最重要的橋樑。對於全球開發者而言,GitHub是學習最新技術、追蹤前沿動態、參與頂級開放原始碼專案不可或缺的平台。Hugging Face:AI民主化的"模型廣場":如果說GitHub是AI的"程式碼庫",那麼Hugging Face就是AI的"模型庫"、"資料集市"和"應用展示空間"。它極大地降低了開發者獲取、使用、訓練和分享模型的門檻,是近年來推動AI技術民主化的最大功臣。其社區文化開放、活躍,以分享和協作為主導,核心價值在於:海量模型與資料集:託管了超過100萬個預訓練模型和20萬個資料集,覆蓋了自然語言處理、電腦視覺、音訊處理等幾乎所有領域。標準化工具鏈:其Transformers庫已成為載入和使用預訓練模型的事實標準,Diffusers庫統一了文生圖模型的介面,極大地簡化了開發流程。線上演示與部署:通過Spaces功能,開發者可以輕鬆地為自己的模型建構一個可互動的線上演示應用(Demo),並與全球使用者分享。Hugging Face還提供推理端點(Inference Endpoints)服務,簡化了模型的生產部署。中國崛起的本土化平台:以魔搭(ModelScope)和升思(MindSpore)為代表。面對美國主導的全球社區,中國AI產業也積極建構符合自身國情和開發者需求的本土化平台,其中最具代表性的是阿里巴巴的"魔搭"和華為的"升思":魔搭(ModelScope):中國開發者的"模型超級市場":由阿里巴巴達摩院牽頭推出的ModelScope社區,在短短幾年內迅速成長為中國規模最大、最活躍的AI模型社區。其核心定位是"模型即服務",致力於為中國開發者提供一站式的模型發現、體驗、開發和部署服務。相比Hugging Face,魔搭社區的特點更加"親民",更側重於模型的"應用性"和"易用性":國產模型大本營:社區不僅彙集了通義千問系列等阿里自家的王牌模型,也吸引了幾乎所有國內主流AI公司(如智譜AI、零一萬物、百川智能等)和頂尖研究機構的模型入駐,形成了國內最全的中文模型庫。極致的中文友好體驗:平台提供全中文的介面、詳盡的中文文件、豐富的入門教學和視訊講解,極大地降低了國內初級開發者的學習曲線。完善的工具鏈與雲服務整合:魔搭社區提供了從模型線上體驗(Playground)、程式碼線上運行(Notebook)到一鍵部署到阿里雲PAI平台的完整工具鏈。開發者可以在一個平台上完成從模型選型到應用上線的全過程,實現了與雲端運算服務的無縫銜接。升思(MindSpore):國產算力的"靈魂引擎":由華為推出的升思社區,則是一個戰略意圖更加清晰的平台,其核心目標是為基於華為升騰(Ascend)AI硬體生態的開發提供全端式的軟體框架、模型庫和工具鏈。升思社區的最大特點是"軟硬協同",旨在通過框架、編譯器和模型的聯合最佳化,將升騰晶片的硬體性能發揮到極致,為開發者提供一個在國產算力上進行高效AI開發和部署的最優解。其生態價值在於:為國產算力"造魂":升思AI框架針對升騰硬體的架構特點(如達文西架構的矩陣計算單元)進行了深度最佳化,能夠最大化硬體利用率。建構自主可控的技術體系:在升思社區,從底層的AI框架(MindSpore)、AI編譯器(CANN),到上層的模型庫和開髮套件(MindKit),構成了一套完全自主可控的全端AI技術體系,這對於保障國家AI產業安全具有重要的戰略意義。表1-3 全球與中國主流AI開發者社區對比(2025年)總而言之,中美開發者生態呈現出互補與競爭並存的格局。GitHub和Hugging Face定義了全球AI開發的基礎設施和通用範式,而魔搭、升思等本土平台則在應用落地、服務本土開發者和建構自主算力生態方面,展現出強大的生命力和不可替代的價值。對於中國開發者而言,既要積極擁抱全球社區,站在巨人的肩膀上;也要充分利用本土平台的優勢,將先進技術與中國的市場需求和產業場景相結合,創造出真正的價值。1.2.3 技術特色對比:通用與垂直的殊途同歸中美技術路線的分化,最終體現在模型能力的技術特色和演進路徑上。2025年,這一差異愈發明顯:美國頭部模型在追求"通用人工智慧"(AGI)的道路上越走越遠,致力於打造一個無所不能的"超級大腦";而中國的AI大模型發展則呈現出更強的"實用主義"和"場景驅動"色彩,通過在垂直行業的深度耕耘,走出了一條"自下而上"、與實體經濟深度融合的特色路徑。儘管起點和路徑不同,但兩者都在以自己的方式,探索著通往更高等級人工智慧的未來,可謂"殊途同歸"。美國的技術路徑:追求通用能力的"自上而下"中國的技術路徑:場景驅動的"自下而上"相比之下,中國的AI大模型發展呈現出更強的"實用主義"和"場景驅動"色彩,走的是一條"自下而上"的道路。除了在通用能力上奮力追趕,中國廠商將大量資源投入到金融、醫療、製造、電商、教育等具體垂直行業的應用開發中,強調模型與產業知識、業務流程的深度融合。代表模型:阿里的通義千問、智譜GLM、百度的文心一言、騰訊的混元、華為的盤古等。核心理念:AI的價值最終體現在解決真實世界的問題上。從具體的應用場景出發,利用場景中產生的真實資料和反饋,來倒逼和牽引底層模型能力的迭代和最佳化。生態打法:將大模型與其在各自優勢領域的產業生態深度繫結。例如,阿里的通義千問與其電商和辦公生態(釘釘)深度融合;百度的文心大模型與其在自動駕駛、工業質檢等領域的積累相結合,形成了獨特的"雲智一體"優勢。這種路徑的優勢在於商業模式更清晰,更容易在短期內創造可衡量的經濟價值,並且能夠建構起基於行業Know-how和專有資料的護城河。其挑戰在於如何避免應用過於"碎片化",並在深耕垂直領域的同時,保持對通用能力前沿的跟進。中國AI的垂直行業深度賦能案例(2025年)中國的"自下而上"策略,在多個關乎國計民生的關鍵垂直行業取得了顯著成效,展現出AI技術與實體經濟深度融合的巨大潛力。這些案例不僅是技術的展示,更是商業價值的證明。1. 智能製造:從"中國製造"到"中國智造"2. 智慧金融:安全、效率與普惠的革命3. 普惠醫療:緩解資源不均,提升診療水平4. 自動駕駛:大模型驅動的"端到端"革命中國複雜多變的交通路況和海量的駕駛資料,為自動駕駛技術的快速迭代提供了全球獨一無二的"訓練場"。2025年,中國自動駕駛技術路線正在經歷一場由大模型驅動的範式革命。這些來自不同行業的案例充分說明,中國AI產業正通過與實體經濟的深度融合,在解決國計民生和產業升級的重大問題中尋找應用場景、創造真實價值,並反過來用真實世界的複雜資料和反饋來驅動AI技術的持續迭代。這條場景驅動、資料反哺的路徑,形成了一條極具韌性和生命力的、具有中國特色的技術發展道路。1.3 2025年關鍵技術突破:協同演進,邁向通用智能在市場需求、產業應用和全球競爭的三重驅動下,2025年的AI大模型技術在多個方向上取得了關鍵性、非線性的突破。這些突破不再是單一維度的線性提升,例如單純的參數增長或在某個孤立任務上的性能最佳化,而是多個技術方向協同演進、相互促進,共同推動AI系統向更通用、更自主、更高效、更可靠的終極目標邁進。多模態能力從可選變為標配,混合專家(MoE)架構的普及解決了規模與成本的矛盾,基於強化學習的深度推理能力讓模型學會了"思考",而AI Agent(智能體)的商業化爆發則將這一切能力整合,使其成為能夠自主執行任務的數字員工。這四大趨勢共同定義了2025年大模型技術的新高度,並深刻地影響著未來十年AI技術和應用的發展軌跡。1.3.1 多模態成為標配:從"拼接"到"原生"的全感官智能如果說2024年是多模態大模型的"萌芽之年",其能力主要體現在圖文理解上,那麼2025年則是其"普及與深化之年"。單一的文字處理能力已不再是衡量一個模型先進與否的標準,同時理解和生成文字、圖像、音訊、視訊、3D模型、感測器訊號等多種模態資訊,並實現它們之間的無縫轉換和融合推理,成為了頂級模型的入門門檻。這一轉變的意義,不亞於從黑白電視到彩色電視的飛躍,它標誌著AI正在從一個只能"閱讀"的"書生",進化為一個能聽、能看、能說、能感受的"全感官"智能體。技術演進:從"拼接"到"原生"的架構革命2025年多模態技術的核心突破,在於架構層面實現了從"拼接式多模態"(Stitched Multimodality)向"原生多模態"(Native Multimodality)的根本性演進。理解這一轉變,是理解當前多模態技術水平的關鍵。舊範式:拼接式多模態早期的多模態模型,如CLIP和DALL-E的早期版本,通常採用多個獨立的、針對特定模態的編碼器(Encoder)。例如,使用一個預訓練好的視覺模型(如ViT)來編碼圖像,使用一個語言模型(如BERT)來編碼文字,然後通過一個輕量級的"連接層"(Projection Layer)將它們的特徵向量對應到同一個語義空間進行對齊和融合。這種方式雖然在當時取得了不錯的效果,但存在明顯的技術缺陷:資訊瓶頸(Information Bottleneck):不同模態的資訊在各自的編碼器中被高度壓縮,在"連接層"進行融合時已經丟失了大量原始的細節資訊,導致跨模態理解不夠精細和深入。互動膚淺(Shallow Interaction):模型只能進行表層的、全域的對齊(例如判斷"這張圖片和這段文字描述的是同一個物體"),但難以理解模態內部和模態之間的複雜、局部關係(例如,無法精準理解"圖片左上角的男人正在對右下角的狗低聲說話"這一包含空間、行為和聲音資訊的複雜場景)。擴展性差(Poor Scalability):每增加一種新的模態(如視訊、音訊),就需要設計一個新的編碼器和相應的連接方式,整個架構會變得越來越臃腫,訓練也變得異常複雜。新範式:原生多模態以Google Gemini系列、OpenAI GPT-5以及國內的通義千問Qwen2.5-VL為代表的新一代模型,在架構層面就實現了根本性的統一。它們採用統一的Transformer架構和共享的向量空間來處理所有模態的資料。其核心思想是"萬物皆可Token化":統一Token化:無論是文字、圖像、聲音還是視訊,都會被一個統一的"分詞器"(Tokenizer)或多個協同工作的分詞器,轉換成一系列離散的"語義令牌"(Semantic Tokens)。例如,圖像被切分成小塊(Patches),每個圖像塊被編碼成一個Token;音訊波形被切分成短時幀,也被編碼成Token。這些來自不同感官的Token,與文字的Token一起,被送入同一個模型中,擁有了統一的"語言"。端到端深度融合訓練:在統一的Transformer架構中,來自不同模態的Token通過自注意力機制(Self-Attention)進行無差別的、深度的互動和融合。模型在包含海量多模態資料的預訓練過程中,端到端地(End-to-End)學習所有模態的內在規律以及它們之間錯綜複雜的對應關係。模型不再是先理解圖像,再理解文字,而是在同一個思考過程中,同時處理和關聯所有的感官資訊。這種原生多模態架構帶來了幾個革命性的優勢:更強的跨模態推理能力:模型能夠真正理解不同模態資訊之間的深層邏輯和因果關聯。例如,它不僅能識別出一張圖片裡有一隻貓和一張桌子,還能根據貓的姿勢、眼神以及桌上的食物,推理出"這隻貓可能準備跳上桌子偷吃東西",甚至能結合背景聲音(如遠處傳來的主人腳步聲),進一步推理出"這隻貓的行為具有風險,可能會被即將到來的主人發現"。這種能力是實現高級場景理解和自主決策的基礎。更靈活的模態轉換與生成(Any-to-Any):由於所有模態在底層被統一表示,模型可以輕鬆地實現任意模態到任意模態的轉換和生成。例如:輸入一段複雜的文字描述("一個賽博朋克風格的雨夜城市,霓虹燈在濕漉的街道上投下斑斕的倒影,一個穿著風衣的偵探在追逐一個一閃而過的神秘黑影"),可以直接生成一段包含相應場景、動態效果、環境音效和緊張旁白的短影片。輸入一段哼唱的旋律,可以生成完整的樂譜、多種樂器編配的成品音樂,甚至配上AI生成的虛擬歌手演唱。輸入一段產品設計草圖,可以直接生成可用於3D列印的CAD模型。更低的開發與部署成本:統一的架構意味著更少的模型元件和更簡化的訓練與部署流程。開發者不再需要為不同的多模態任務去尋找和組合不同的模型,一個強大的原生多模態模型即可應對多種應用場景,這極大地降低了多模態應用的開發和維護成本。行業影響與未來展望多模態能力的普及,正在對各行各業產生顛覆性的影響,其深度和廣度遠超純文字AI:內容創作與傳媒:AIGC正在從單一的文案、圖片生成,走向完整的視訊、電影、遊戲內容的自動化和半自動化生產。這將極大地改變媒體、廣告和娛樂行業的內容生產方式,催生"AI導演"、"AI編劇"、"AI遊戲關卡設計師"等新職業,同時也對內容版權、真實性驗證提出了新的挑戰。教育與培訓:AI可以根據學生的學習進度和薄弱環節,動態生成包含圖示、動畫、語音講解和互動實驗的個性化多媒體課件,實現真正的因材施教。未來的課本將是"活"的、可互動的、全方位調動學生感官的沉浸式學習體驗。工業與醫療:在工業領域,多模態AI能結合裝置運行的聲音、振動頻率、紅外熱成像和高畫質視覺圖像,實現比任何單一感測器都更準確的故障預警和壽命預測。在醫療領域,它能同時分析CT影像、病理報告、基因序列和患者的口述病史,為醫生提供更全面、更準確的診斷建議,成為"超級診斷專家"。人機互動革命:未來的互動介面將不再侷限於鍵盤、滑鼠和螢幕。使用者可以通過最自然的語音、手勢、眼神甚至腦電波與AI進行互動,AI也能通過分析使用者的表情、語氣和生理訊號來理解其真實意圖和情感狀態,實現更具共情能力和預見性的溝通。這將為AR/VR眼鏡、智能座艙、具身智慧型手機器人、可穿戴裝置等領域帶來革命性的體驗提升。科學發現:多模態AI能夠理解科學論文中的圖表、公式和文字,觀看實驗視訊,分析實驗資料,幫助科學家更快地吸收知識、發現不同領域研究之間的關聯,並提出新的科學假設。2025年,多模態已經不再是一個"加分項",而是基礎大模型不可或缺的核心能力。它將AI從一個強大的語言工具,提升到了一個初級的"世界模擬器"和"全能感知體",為通往更高等級的人工智慧鋪平了道路。1.3.2 MoE架構普及:兆參數的"經濟適用"之道隨著模型能力的提升,參數規模的增長似乎是通往更強智能的必經之路。然而,訓練和推理一個數兆參數的稠密模型(Dense Model)——即在每次計算中所有參數都參與運算——所帶來的巨大算力成本、記憶體開銷和能源消耗,是任何一家公司都難以承受的。這形成了一個阻礙AI發展的"不可能三角":即無法同時實現頂尖的性能、巨大的規模和可控的成本。為了打破這一桎梏,混合專家模型(Mixture of Experts, MoE)架構在經歷了多年的學術探索後,於2025年得到了大規模的工業化普及,成為建構前沿大模型的首選架構。它為通往兆乃至十兆參數的道路,提供了一條經濟適用的、可行的工程路徑。技術原理:稀疏啟動的"集體智慧"MoE的核心思想,源於一個簡單的分工理念:與其讓一個"通才"吃力地解決所有問題,不如培養一群各有所長的"專家",在遇到問題時,聰明地選擇並啟動最相關的幾位專家來協同解決。在模型架構中,這意味著將一個龐大的前饋神經網路(FFN)層,取代為兩個核心元件:多個專家子網路(Experts):這些是相對獨立的、規模較小的神經網路(通常是FFN)。每個專家在訓練過程中會逐漸學習並擅長處理某一類特定的輸入模式或知識領域(例如,一個專家可能擅長處理與程式設計相關的Token,另一個則擅長處理與生物化學相關的Token)。一個"門控網路"(Gating Network):這是一個輕量級的路由網路。對於每一個輸入的Token,門控網路會快速計算一個權重分佈,決定應該將這個Token傳送給那些專家進行處理。通常,它會選擇權重最高的Top-k個專家(k通常為1、2或4),然後將這些被啟動的專家的輸出結果,根據門控網路的權重進行加權融合,作為最終的輸出。通過這種方式,MoE模型實現了所謂的"稀疏啟動"(Sparse Activation)。儘管模型的總參數量可以做得非常巨大(例如,通過堆疊數百個專家網路達到兆等級),但在處理任何一個Token時,實際參與計算的只是被門控網路選中的少數幾個專家,即"啟動參數量"遠小於"總參數量"。這就帶來了巨大的優勢:在保持巨大模型容量(代表其潛在知識的豐富程度)的同時,大幅降低了單次推理的計算量(FLOPS),從而實現了性能與效率的解耦。表1-4 採用MoE架構的部分代表性模型(2025年)技術深化:從"粗放路由"到"智能調度"MoE架構在2025年的普及,不僅僅是應用範圍的擴大,更伴隨著一系列技術深化和創新,解決了早期MoE面臨的訓練不穩定、負載不均衡、推理延遲高等諸多挑戰。智能路由演算法:早期的MoE模型在分配任務給"專家"時,採用簡單的Top-k門控機制,容易出現"贏家通吃"的現象——即少數專家被過度使用,而大多數專家長期處於閒置狀態。這不僅導致模型容量的巨大浪費,也使得訓練過程非常不穩定。2025年的先進MoE模型,如DeepSeek-V2和智譜GLM-4,採用了更複雜的路由演算法:負載平衡損失(Load Balancing Loss):在訓練的目標函數中加入一個額外的損失項,專門用於懲罰不均衡的專家分配。這會激勵門控網路在選擇專家的同時,也考慮讓所有專家都得到"雨露均霑"的訓練,從而最大化模型容量的利用率。噪聲路由(Noisy Routing):在門控網路的輸出上增加隨機噪聲,以增加路由的探索性,避免模型過早地鎖定在少數幾個專家上,有助於提升模型的泛化能力。專家能力建模:一些更前沿的研究開始讓門控網路不僅考慮輸入與專家的"相關性",還動態地建模每個專家的"能力"和"專長",從而實現更準確的"因材施教"式路由。專家融合與協作:新的MoE架構不再將專家視為完全獨立的、互不通訊的單元。一些模型引入了"共享專家"或"層級化專家"結構。例如,在模型的底層,可能設定一些所有任務都會用到的通用基礎知識專家(如負責基礎語法和語義理解),而在高層,則設定更專業的"領域專家"(如"法律專家"、"程式碼專家"、"數學專家")。還有一些模型則在專家之間引入了橫向連接或額外的注意力機制,允許它們在計算過程中相互交流和協作,共同解決需要跨領域知識的複雜問題。這使得MoE模型不再是簡單的"專家混合",而是真正的"專家會診"。稀疏訓練與推理最佳化:MoE模型的稀疏啟動特性,也催生了一整套專門的分佈式訓練和推理最佳化技術,這是軟體和硬體協同設計的典範。訓練層面:由於MoE模型的總參數量巨大,無法裝入單個計算裝置,因此必須進行平行訓練。業界發展出了"專家平行"(Expert Parallelism)策略,即將不同的專家分佈在不同的GPU上,同時結合"資料平行"(Data Parallelism)來處理輸入資料。這需要高效的All-to-All通訊來完成Token在不同GPU之間的路由和分發,對網路頻寬提出了極高要求。推理層面:MoE的推理最佳化是2025年的一大技術熱點。VLLM、TensorRT-LLM、S-LoRA等推理引擎都針對MoE進行了深度最佳化。其核心挑戰在於,如何高效地處理動態的、不可預測的專家啟動模式,並最大限度地減少從海量總參數中載入專家權重到計算核心所帶來的延遲。關鍵技術包括:專家權重快取(Expert Weights Caching):將最常被啟動的專家權重快取在GPU的快取記憶體(SRAM)或HBM中。投機性載入(Speculative Loading):根據歷史模式或門控網路的初步計算,提前預測那些專家可能被啟動,並預先將其權重從主存載入到GPU記憶體中。計算與通訊重疊:通過精巧的調度,將Token的路由通訊、專家權重的載入與實際的計算過程進行流水線式的重疊,隱藏延遲。產業影響:重塑AI算力版圖MoE架構的普及,正在深刻地改變AI硬體和雲端運算產業的發展方向和競爭格局:對AI硬體提出新要求:MoE架構的"稀疏計算,密集儲存"特性,對AI晶片的設計理念提出了新的要求。過去,AI晶片設計更注重峰值計算能力(FLOPS)。而現在,記憶體頻寬和容量的重要性被提到了前所未有的高度。因為MoE模型在推理時需要從海量的總參數中快速載入被啟動的專家權重,"記憶體牆"(Memory Wall)成為了比"計算牆"(Compute Wall)更主要的瓶頸。這直接推動了高頻寬記憶體(HBM)技術的加速迭代(從HBM3到HBM3e再到HBM4),並使得擁有更大HBM容量的AI晶片(如NVIDIA的B200擁有192GB HBM3e,AMD的MI300X擁有192GB HBM3)在市場上更具競爭力。此外,MoE模型在多節點部署時,專家間的通訊需求也對伺服器的片間/節點間互聯技術(如NVIDIA的NVLink、CXL)提出了更高要求。可以說,軟體層面的架構創新正在反向定義硬體的發展方向。對雲端運算廠商的挑戰與機遇:對於AWS、Azure、GCP以及中國的阿里雲、騰訊雲等雲廠商而言,MoE模型的流行帶來了新的挑戰和機遇。挑戰在於,如何為客戶提供能夠高效運行超大規模MoE模型的、具有高頻寬網路和海量記憶體的計算叢集,這對資料中心的基礎設施提出了極高的要求。機遇在於,雲廠商可以憑藉其在基礎設施、系統最佳化和平台軟體上的綜合優勢,為客戶提供比自建資料中心更具性價比的MoE模型訓練和推理服務,這成為雲服務商新的增長點。例如,Google就憑藉其在TPU上的優勢,宣稱其雲平台是運行超大MoE模型的最佳選擇。而中國的雲廠商則在適配國產算力、為國產MoE模型提供最佳化服務方面,構築自己的獨特優勢。總而言之,MoE架構是2025年大模型技術領域最核心的使能技術之一。它巧妙地繞過了暴力計算的物理極限,為建構更大、更強的AI模型提供了一條可持續的工程路徑,使得"兆參數"不再是少數巨頭的專利,而是成為了更多創新者可以企及的目標,極大地推動了AI技術的普及和應用深化。1.3.3 強化學習增強推理:從"模仿"到"創造"的認知飛躍如果說海量資料的預訓練賦予了AI大模型廣博的"知識",使其成為一個無所不知的"資訊檢索和模式匹配"大師,那麼在2025年取得關鍵突破的強化學習(RL)應用,則正在教會模型如何運用這些知識進行深度的"思考",實現從"模仿"到"創造"的認知飛躍。這一轉變,標誌著AI正從一個被動的"知識容器"向一個主動的"問題求解器"和"思想引擎"邁進,是通往通用人工智慧(AGI)道路上最關鍵、最深刻的一步。範式轉變:從RLHF到"過程-結果"雙重監督與自我對弈2025年,強化學習在大模型領域的應用,實現了從單一的、旨在"對齊人類偏好"的RLHF,到旨在"提升內在推理能力"的更複雜範式的演進。這個新範式結合了過程監督、結果監督和自我對弈,為模型打開了"無監督學習"和"自我進化"的大門。舊範式:RLHF(Reinforcement Learning from Human Feedback)的侷限:RLHF在過去幾年中對於提升模型的安全性、有用性和遵循指令能力方面取得了巨大成功。其核心是讓模型學習模仿人類的偏好。通過讓人類對模型的不同輸出進行排序(例如,那個回答更禮貌、更安全),訓練一個"獎勵模型"(Reward Model),然後用這個獎勵模型作為訊號,通過強化學習演算法(如PPO)來微調大模型。然而,RLHF的本質是"外在的"和"模仿性的",它教會了模型"說什麼樣的話更討人喜歡",但並沒有真正教會模型"如何獨立地思考並得出正確的結論"。其天花板受限於人類標註者的認知水平和偏好,模型很難通過RLHF學會創造出超越人類已有知識的、新穎的解決方案,尤其是在數學、科學、程式設計等需要嚴謹邏輯推理的領域。新範式:結合過程與結果監督的深度推理(Process & Outcome-Supervised RL)為了讓模型真正學會"思考",2025年的前沿技術將監督訊號從模糊的"偏好"轉向了更明確的"過程"和"結果":結果監督(Outcome Supervision):對於那些有明確正確答案的問題(如數學題、程式碼編譯結果),模型可以獲得一個清晰、客觀的獎勵訊號。如果答案正確,則獲得正獎勵;如果錯誤,則獲得負獎勵。這比人類的主觀偏好要可靠得多。過程監督(Process Supervision):然而,僅僅獎勵最終結果是不夠的。一個複雜的推理任務包含很多步驟,模型可能因為某一步的"運氣好"(例如,兩個錯誤相互抵消)而得到正確答案,但這並不意味著它掌握了正確的解題方法。過程監督的核心,是讓人類(或更強的AI)去審查和獎勵模型生成的"思維鏈"(Chain of Thought)中的每一步。如果某一步推理是正確的、有邏輯的,就給予獎勵。這種對"思考過程"的監督,能夠更有效地引導模型學習到可泛化的、魯棒的推理能力。OpenAI提出的"過程獎勵模型"(Process-based Reward Models, PRM)就是這一思想的典型實現。通過結合這兩種監督方式,模型不僅知道要達到什麼"目標",也學會了"如何一步步地、正確地達到目標"。當面對一個複雜問題時(如多步驟的數學題、複雜的程式碼偵錯),模型不再是直接"猜"一個答案,而是會先生成一個詳細的思考鏈或解題計畫,然後逐步執行和修正,最終得出答案。這個過程類似於人類的深思熟慮,極大地提高了模型在複雜任務上的精準性和可靠性。OpenAI在GPT-5發佈時重點介紹的"擴展推理能力"(extended reasoning)和"思考模式"(thinking mode),正是這一趨勢的體現。前沿探索:自我對弈強化學習(Self-Play RL)更進一步,借鑑DeepMind在AlphaGo上取得的巨大成功,AI研究者們正在將"自我對弈"的思想引入到大模型的推理訓練中。其核心思想是,讓模型自己為自己創造學習環境和目標,在沒有或極少有人類輸入的情況下進行自我博弈和提升。在解決一個複雜的數學問題時,模型可以同時扮演三個角色:出題者(Proposer):從一個基本概念出發,自己生成無數個難度遞增、形式各異的新問題。解題者(Solver):嘗試用多種不同的"思維鏈"或"思維樹"來探索這些問題的解法。驗證者(Verifier):通過邏輯一致性檢查、與已知公理比對、或將問題簡化後驗證答案等方式,自己判斷解法的正確與否,並對正確的解題路徑進行"自我獎勵"。通過數百萬次甚至數十億次這樣的自我對弈循環,模型能夠探索出人類從未想過的新穎解題技巧和策略,其能力不再受限於訓練資料中已有的人類知識。2024年9月12日,OpenAI發佈的O1推理模型被認為是這一方向的里程碑,其採用的"Self-play RL"範式,讓模型能夠通過自我對弈和探索,不斷髮現更優的解題策略。這標誌著AI正從一個知識的"消費者"和"整理者",轉變為一個知識的"發現者"和"創造者"。行業影響:重定義"專家級"任務由強化學習驅動的、可解釋、可驗證的深度推理能力,正在重定義許多過去被認為是人類頂尖專家專屬的"認知型"任務,其影響的深度和廣度將遠超之前的自動化浪潮:科學研究(AI for Science):AI已經開始在數學定理證明、蛋白質結構預測(如AlphaFold 3)、新材料發現、高能物理資料分析等領域扮演關鍵角色。過去,AI在科學領域的應用更多是作為強大的資料分析工具。而現在,具備推理能力的AI有望成為科學家的"研究夥伴"或"靈感催化劑"。它可以幫助科學家梳理文獻、發現不同領域知識之間的隱藏關聯、提出全新的科學假設、設計複雜的實驗方案,甚至獨立完成部分理論推導,從而極大地加速科學發現的處理程序。軟體工程(AI for Software Engineering):這是推理能力最先展現出顛覆性潛力的領域之一。具備強大推理能力的AI Agent,將能夠承擔從理解模糊的自然語言需求、進行系統架構設計、編寫高品質和可維護的程式碼,到設計測試用例、自動偵錯、乃至最終的部署和維運的全流程軟體開發工作。這可能會極大地改變軟體行業的生產模式,將人類程式設計師的角色從"程式碼工人"提升為"AI架構師"和"產品思想家",同時也對軟體工程的教育和培訓提出了全新的要求。金融與法律:在金融領域,AI可以進行更複雜的宏觀經濟預測、金融衍生品定價和全天候的風險建模,而不僅僅是基於歷史資料的模式識別。在法律領域,AI可以處理更複雜的案件分析、證據鏈梳理和合同審查,甚至進行一定程度的法律推理,為法官和律師提供決策支援。這要求相關領域的從業者必須學會如何與這些"AI法律助理"和"AI金融分析師"進行高效協作。教育:具備推理能力的AI家教,不僅能判斷學生的答案是否正確,更能理解學生的解題思路錯在了那裡,並能像一個有經驗的老師一樣,循循善誘地、一步步地引導學生掌握正確的思維方法。這為實現大規模、高品質的個性化教育提供了可能。總而言之,強化學習增強推理能力的突破,是2025年AI技術發展中最具變革性的力量。它讓AI開始擁有真正的"智力"而非僅僅是"知識",使其能力邊界從模式匹配和資訊檢索向複雜問題求解和自主規劃拓展。這是AI發展史上的一個分水嶺,也是邁向更通用、更強大人工智慧的關鍵一步。1.3.4 AI Agent爆發:從"工具"到"員工"的社會變革當大模型具備了強大的多模態感知能力、基於MoE架構的高效海量知識、以及由強化學習驅動的深度思考和規劃能力後,將這一切能力整合起來,並賦予其與外部世界互動、自主設定目標並執行任務的能力,便誕生了人工智慧體——AI Agent。如果說之前的AI是需要人來"使用"的"工具",那麼AI Agent就是一個可以被"僱傭"來自主完成任務的"數字員工"。在經歷了前兩年的概念驗證和技術探索後,2025年被業界普遍認為是AI Agent的商業化元年和"應用爆發之年"。這不僅是一項技術的成熟,更是一場深刻的生產力革命和社會變革的序幕。AI Agent的"三位一體"核心架構一個典型的AI Agent框架,無論其具體實現如何,通常都包含一個由"感知-規劃-行動"(Perception-Planning-Action)構成的核心循環,並輔以"記憶"和"工具使用"兩大關鍵能力,形成一個"三位一體"的智能系統:感知(Perception):這是Agent與世界互動的入口。得益於2025年成熟的原生多模態技術,Agent的感知能力已經遠超文字。它可以"看到"螢幕上的介面、圖表和視訊,"聽到"使用者的語音指令和環境聲音,並閱讀海量的文件、程式碼和網頁。這種全方位的感知能力是其理解複雜任務和環境的基礎。規劃與思考(Planning & Reasoning):這是Agent的"大腦"和"中樞神經"。當接收到一個複雜、高層次的目標(例如,"幫我規劃一次為期五天的北京家庭旅行,預算一萬元")後,Agent的核心推理引擎(通常由具備深度推理能力的大模型擔當)會啟動:任務分解(Task Decomposition):將模糊的大目標分解為一系列具體的、可執行的子任務(例如:1. 確認家庭成員和出行偏好;2. 搜尋往返機票和酒店;3. 規劃每日行程和景點;4. 估算餐飲和交通費用;5. 形成最終方案並徵求使用者意見)。自我反思與修正(Self-Reflection and Refinement):在執行過程中,Agent會不斷地對自己的計畫和行為進行評估。如果發現某一步走不通(例如,預訂的酒店滿房),它會分析失敗的原因,並自主修正後續的計畫(例如,更換酒店或調整行程日期)。這種"反思"能力是其區別於簡單自動化指令碼的關鍵。行動(Action):這是Agent影響和改變世界的出口。Agent的行動並非預設的固定程序,而是根據其規劃動態生成的。其核心能力在於工具呼叫(Tool Use)。技術堆疊成熟:從開源框架到商業化平台AI Agent在2025年的爆發,直接得益於其背後技術堆疊的快速成熟和標準化。以LangChain、LlamaIndex、AutoGen、CrewAI、MetaGPT等為代表的開源框架,為Agent的核心能力(規劃、記憶、工具呼叫)提供了標準化的、模組化的實現,極大地降低了開發者建構Agent應用的門檻。開發者不再需要從零開始實現複雜的邏輯,而是可以像"搭樂高"一樣,快速組合這些框架提供的元件來建構自己的Agent。2025年,我們看到這些開放原始碼專案開始向更成熟的"Agent平台"演進。這些平台不僅提供開發工具,還提供了一系列商業化的服務,形成了一個完整的生態系統:應用爆發:從個人助理到企業自動化成熟的技術堆疊催生了Agent應用的全面爆發,覆蓋了從個人生產力到企業級自動化的廣泛場景:AI軟體工程師:這是2025年最引人注目的Agent應用方向。以Cognition AI的Devin為代表,這類Agent能夠端到端地完成軟體開發任務。使用者只需用自然語言描述需求,Devin就能夠自主學習不熟悉的技術、編寫程式碼、修復bug、進行測試,並最終完成部署。它在SWE-bench基準上解決問題的能力,已經超過了許多人類初級工程師。這預示著軟體開發這一複雜的人類智力活動,正在被AI重塑。AI市場分析師與研究員:這類Agent能夠自動監控全網的新聞、報告、社交媒體和市場資料,根據設定的主題(例如,"分析2025年中國新能源汽車市場的競爭格局")進行資訊的抓取、清洗、整理和深度分析,並最終自動生成一份結構完整、圖文並茂、包含資料洞察和趨勢預測的深度研究報告。自主的個人助理:AI助理不再是被動地回答問題,而是能夠主動地、跨應用地為使用者完成任務。例如,使用者只需說一句"幫我安排下周三和張總的會議",Agent就會自動檢查雙方的日曆、協調空閒時間、傳送會議邀請、預訂會議室,並在會前自動整理好相關的背景資料傳送給使用者。企業自動化工作流(Hyperautomation):這是AI Agent在B端最具想像力的應用。通過將企業內部的OA、ERP、CRM等多個獨立的IT系統通過Agent打通,可以實現跨系統的、端到端的業務流程自動化。例如,一個"銷售訂單處理Agent"可以在CRM中收到新訂單後,自動去ERP中檢查庫存、在物流系統中安排發貨、在財務系統中生成發票,並自動給客戶傳送包含物流單號的確認郵件。這比傳統的RPA(機器人流程自動化)更加靈活和智能。"智能體經濟"(Agent Economy)的黎明AI Agent的商業化,正在催生一個全新的"智能體經濟"。在這個經濟體中,AI不再僅僅是工具,而是作為獨立的經濟參與者,提供服務、創造價值並參與分配。新的商業模式正在湧現:訂閱制"數字員工":企業可以像僱傭人類員工一樣,按月或按年訂閱一個"財務分析Agent"、"客戶支援Agent團隊"或"初級程式設計師Agent"。這些"數字員工"可以7x24小時不間斷工作,成本遠低於人力,且不會疲勞、不會犯重複性錯誤。結果導向付費(Outcome-based Pricing):使用者不再為Agent的計算過程或使用時長付費,而是為其創造的商業價值付費。例如,一個"銷售線索挖掘Agent"可以根據其最終帶來的有效銷售線索數量來收費;一個"廣告投放最佳化Agent"可以根據其提升的廣告轉化率來分享收益。這種模式將AI服務商與客戶的利益深度繫結。Agent應用程式商店(Agent Store):類似於蘋果的App Store或Salesforce的AppExchange,未來將會出現面向AI Agent的"應用程式商店"。開發者可以開發出各種功能的、面向特定場景的Agent並上架銷售,個人使用者和企業可以根據自己的需求,購買、組合不同的Agent來打造個性化的"超級助理"或自動化工作流。平台則從中抽取分成,形成一個繁榮的開發者生態。AI Agent的爆發,標誌著AI的角色正在從一個被動的"資訊提供者"轉變為一個主動的"任務執行者"和"價值創造者"。它將徹底改變人機互動的方式,並有望重塑軟體行業、服務行業乃至整個社會的生產力組織形式。當然,這也將對現有的商業模式和勞動力市場帶來顛覆性的衝擊,並引發關於AI倫理、責任歸屬、安全治理和社會公平的更深層次的社會討論,這些都將是未來幾年需要全社會共同面對和解決的重大課題。1.3.4 AI Agent爆發:從"工具"到"員工"的社會變革AI Agent的技術架構深度解析2025年,AI Agent的實現已經從概念驗證走向了工程化和產品化。一個生產級的AI Agent系統通常採用分層架構,各層之間通過標準化介面解耦,確保了系統的可擴展性和可維護性:1. 感知層(Perception Layer)感知層負責將多模態輸入轉換為統一的內部表示。2025年的先進Agent不再侷限於文字對話,而是整合了:視覺感知模組:基於Qwen-VL或GPT-5 Vision等原生多模態模型,能夠解析使用者上傳的截圖、圖表、照片,並理解介面元素和視覺上下文。這在自動化UI操作、視覺問答等場景中至關重要。語音感知模組:整合CosyVoice或Whisper等SOTA語音識別模型,支援流式語音輸入和即時轉錄,延遲可控制在300ms以內。結構化資料感知:通過Function Calling機制,Agent能夠呼叫API獲取JSON、XML等結構化資料,並將其自然語言化。2. 認知核心層(Cognitive Core)這是Agent的"大腦",通常由一個或多個大語言模型構成,負責推理、規劃和決策。2025年的最佳實踐包括:雙模型策略:使用一個強大的"規劃模型"(如GPT-5或Qwen-Max)進行任務分解和策略制定,再使用一個更快的"執行模型"(如Qwen-Plus或DeepSeek-V2)處理具體的子任務,在成本與性能間取得平衡。思維鏈工程:通過精心設計的System Prompt,強制模型在輸出最終答案前,先輸出結構化的思考過程,包括:目標分析、子任務列表、工具選擇理由、風險評估等。這不僅提升了透明度,也便於偵錯和最佳化。自我糾錯機制:引入"批判性反思"步驟,讓Agent在完成一個子任務後,主動評估結果質量,若發現缺陷則觸發回退或重試邏輯。3. 行動執行層(Action Layer)執行層負責將認知層的決策轉化為實際的操作。關鍵技術包括:工具呼叫協議:2025年已初步形成了標準化的Agent工具呼叫協議(如OpenAI的Function Calling、Anthropic的Tool Use),使得不同廠商的Agent框架能夠相容使用第三方工具。瀏覽器自動化:通過Playwright、Selenium等瀏覽器自動化工具,Agent可以模擬人類操作網頁,完成從資訊檢索到線上交易的完整流程。Cognition AI的Devin就展示了在真實GitHub倉庫中自主建立PR、修復CI錯誤的能力。程式碼執行沙箱:為Agent提供安全的程式碼執行環境(如Jupyter Notebook、Docker容器),使其能夠進行資料分析、檔案處理等複雜操作,同時實現嚴格的權限隔離和資源限制。4. 記憶管理層(Memory Management)長期記憶是Agent處理複雜多輪任務的關鍵。2025年的主流方案是混合記憶架構:短期記憶:利用LLM的上下文窗口(最高可達200萬token)儲存當前對話歷史和近期任務資訊,實現快速訪問。長期語義記憶:使用向量資料庫(如Milvus、Pinecone)儲存歷史互動、成功經驗、領域知識,支援基於相似度的檢索。情景記憶:以鍵值對形式儲存特定任務的執行軌跡(Observation-Action-Observation),供未來類似任務參考學習。企業級AI Agent的實施挑戰與解決方案儘管技術日趨成熟,但將AI Agent規模化部署到企業生產環境仍面臨嚴峻挑戰:挑戰1:可靠性與一致性LLM的機率性輸出導致Agent行為難以完全預測,可能出現"幻覺"或執行錯誤。2025年的解決方案包括:確定性規劃層:在LLM之上增加一個基於規則或符號邏輯的驗證層,對關鍵操作(如支付、資料刪除)進行強制性規則檢查。人類在環(Human-in-the-Loop):在高風險決策點設定人工稽核節點,Agent提交執行計畫供人類批准後方可執行。沙盒測試:在隔離環境中對Agent工作流進行自動化測試,驗證其在各種邊界條件下的表現,覆蓋率需達到95%以上。挑戰2:成本與性能最佳化複雜任務可能觸發數十次LLM呼叫,成本高昂且響應慢。最佳化策略包括:快取機制:對重複的子任務結果(如常見函數程式碼)進行快取,命中率可達60-80%。模型路由:根據任務複雜度自動選擇大小模型,簡單查詢用小模型(如Qwen-Slim),複雜推理用大模型,可降低30-50%成本。平行化執行:對於獨立的子任務(如同時查詢多個資料庫),採用非同步並行執行,總耗時從線性疊加降為最慢子任務耗時。挑戰3:安全與合規賦予Agent訪問敏感資料和系統的權限帶來巨大安全風險。2025年的企業級Agent必須實現:最小權限原則:Agent僅被授予完成特定任務所需的最小權限集,權限動態授予、用後回收。可審計性:完整記錄Agent的所有操作日誌,包括決策過程、工具呼叫參數、結果狀態,滿足SOX、GDPR等合規要求。對抗性魯棒性:對輸入進行過濾和清洗,防範提示注入(Prompt Injection)和工具劫持(Tool Hijacking)攻擊。第二章:AI大模型開發核心技術堆疊:從框架到部署的全景解析引言:建構未來智能的"開發者軍火庫"在AI大模型技術浪潮席捲全球的背景下,開發者作為這場技術革命的核心推動力量,其手中的"軍火庫"——即AI大模型開發的核心技術堆疊——的演進與迭代,直接決定了創新的速度、應用的深度和生態的廣度。2025年,AI開發技術堆疊經歷了從"手工作坊"式的探索到"工業化"生產體系的深刻變革。這一體系,上承模型演算法的創新,下接千行百業的應用落地,是連接理論與實踐、驅動AI價值釋放的關鍵樞紐。本章將為開發者和AI從業者提供一份詳盡的、面向2025年的AI大模型開發核心技術堆疊圖譜。我們將系統性地梳理和解析構成這一技術堆疊的四大核心支柱:基礎開發框架:從深度學習的基石PyTorch、TensorFlow和JAX,到引爆應用層創新的AI Agent框架(如LangGraph、AutoGen),我們將剖析其技術演進和選型考量。模型訓練與微調技術:我們將深入探討分佈式訓練的平行策略、參數高效微調(PEFT)的革命(特別是LoRA與QLoRA),為開發者在不同資源和場景下選擇最優訓練方案提供指南。推理最佳化與部署技術:我們將揭示以vLLM和TensorRT-LLM為代表的高性能推理框架如何通過PagedAttention等技術實現吞吐量的飛躍,並系統介紹模型量化、算子融合等核心最佳化手段。AI程式設計輔助工具:從GitHub Copilot到國產的通義靈碼,我們將評測這些"AI結對程式設計師"如何重塑開發流程,提升程式碼生產力。本章旨在通過對上述核心技術堆疊的全面解析,為開發者提供一個清晰的導航圖,幫助他們理解各種工具的內在邏輯、適用場景與最佳實踐,從而在建構下一代AI應用的征程中,能夠"選對兵器,打贏戰爭"。2.1 基礎開發框架:奠定AI創新的基石基礎開發框架是AI技術堆疊的"作業系統",它為上層演算法的實現、模型的訓練和應用的部署提供了底層的計算抽象和工具集。2025年,AI開發框架的版圖呈現出清晰的"雙層結構":下層是以PyTorch、TensorFlow和JAX為代表的"深度學習基礎框架",它們是建構和訓練神經網路的核心引擎;上層則是以LangChain、CrewAI、AutoGen等為代表的"AI Agent開發框架",它們專注於編排和調度大模型的能力,是引爆應用層創新的催化劑。理解這兩層框架的特點與分工,是開發者建構現代AI應用的第一步。2.1.1 深度學習基礎框架:三足鼎立,PyTorch王者地位穩固深度學習基礎框架是AI開發者的"主戰武器",它們直接決定了研究和開發的效率、靈活性與性能。經過多年的激烈競爭,2025年的市場格局已然清晰:PyTorch憑藉其靈活性和強大的社區生態,在學術界和工業界都佔據了絕對的主導地位;TensorFlow憑藉其在生產部署和移動端上的優勢,仍在特定領域保有一席之地;而JAX則以其高性能和獨特的函數式程式設計範式,在頂尖研究和大規模計算領域異軍突起,成為不可忽視的新生力量。PyTorch:當之無愧的王者由Meta AI研究院主導開發的PyTorch,在2025年已經成為絕大多數AI研究者和開發者的首選框架。根據Papers With Code等學術平台的統計資料,2024年至2025年間新發表的AI論文中,使用PyTorch實現的比例已經超過70-80%,形成了事實上的"學術壟斷"。其成功主要歸功於以下幾點:動態計算圖(Dynamic Computational Graph):這是PyTorch最核心的特性,也被稱為"Define-by-Run"。計算圖在程式碼實際執行階段才被建構,這意味著開發者可以使用標準的Python控制流(如if語句、for循環)和偵錯工具(如pdb)來建構和偵錯模型。這種所見即所得的程式設計體驗極大地降低了學習門檻,提高了開發和實驗的效率。相比之下,TensorFlow早期的靜態圖模式在偵錯時需要複雜的Session機制,學習曲線陡峭。簡潔直觀的API設計:PyTorch的API設計遵循"Pythonic"的哲學,與NumPy的介面高度相似,使得熟悉Python資料科學生態的開發者可以快速上手。其模組化的設計(如nn.Module、torch.optim)使得建構、訓練和評估模型的過程非常自然和清晰。例如,定義一個神經網路只需要繼承nn.Module並實現forward方法,這種物件導向的設計非常符合開發者的直覺。強大的社區與生態系統:PyTorch擁有全球最活躍、最龐大的AI開發者社區。這不僅意味著海量的開放原始碼專案、預訓練模型和第三方庫(如Hugging Face Transformers、PyTorch Lightning、fast.ai),也意味著開發者在遇到問題時可以快速找到解決方案。Hugging Face生態與PyTorch的深度繫結,更是極大地推動了其在NLP領域的普及。2025年,幾乎所有新發佈的重要模型都會第一時間提供PyTorch版本。無縫的生產部署過渡:通過TorchScript(將動態圖模型轉換為靜態圖)和TorchServe(官方模型服務庫),PyTorch彌補了早期在生產部署上的短板。特別是PyTorch 2.0版本後引入的torch.compile功能,通過與Triton等先進編譯器的整合,實現了"一次編寫,處處加速",在保持開發靈活性的同時,獲得了接近靜態圖的推理性能,打通了從研究到生產的"最後一公里"。torch.compile使用即時編譯(JIT)技術,能夠自動融合算子、最佳化記憶體訪問模式,在Transformer模型上可實現1.5-2倍的推理加速。TensorFlow:堅守工業界,專注生產部署由Google開發的TensorFlow是歷史上第一個被廣泛採用的深度學習框架。儘管在靈活性和社區活躍度上逐漸被PyTorch超越,但憑藉其在工業級生產部署和Google強大生態系統中的深厚根基,TensorFlow在2025年依然是許多大型企業和特定場景下的重要選擇。靜態計算圖(Static Computational Graph):TensorFlow 1.x時代的核心特性是"Define-and-Run",即先定義完整的計算圖,再執行。這種模式雖然開發和偵錯較為繁瑣,但非常有利於進行圖最佳化、跨平台部署和分佈式訓練。儘管TensorFlow 2.x引入了Eager Execution(類似於PyTorch的動態圖模式)作為默認模式,但其骨子裡仍然保留了強大的靜態圖能力,這使其在追求極致性能和穩定性的生產環境中備受青睞。靜態圖可以在部署前進行全域最佳化,如常數摺疊、算子融合、記憶體預分配等。完善的部署工具鏈(TensorFlow Extended - TFX):Google為TensorFlow打造了一套名為TFX的端到端機器學習平台,覆蓋了從資料準備、模型訓練、驗證、部署到監控的全生命周期。其中的TensorFlow Serving在處理大規模、高並行的推理請求方面表現出色,而TensorFlow Lite則是在移動和嵌入式裝置上部署AI模型的行業標準。這種"全家桶"式的解決方案對於需要標準化、可擴展和可維護的MLOps流程的大型企業具有很強的吸引力。TFX的各個元件(Transform、Trainer、Evaluator、Pusher)可以整合到Apache Airflow或Kubeflow Pipelines中,實現自動化的CI/CD。Google生態深度整合:作為Google的"親兒子",TensorFlow與Google Cloud Platform(GCP)、TPU硬體以及Android生態系統深度整合,能夠為使用這些平台和裝置的開發者提供最優的性能和最便捷的開發體驗。例如,在TPU上訓練時,TensorFlow可以通過XLA編譯器生成高度最佳化的TPU指令,性能遠超PyTorch。JAX:高性能計算的"核武器"同樣由Google開發的JAX,是一個相對較新的框架,但它憑藉其獨特的設計理念和驚人的性能,在高性能計算(HPC)和前沿AI研究領域迅速崛起,被認為是PyTorch和TensorFlow未來最強有力的挑戰者。JAX的核心並非一個傳統的深度學習框架,而是一個專注於高性能數值計算和大規模機器學習的Python庫。其核心競爭力源於幾個關鍵的函數變換:grad:自動微分:JAX提供了強大且靈活的自動微分功能,可以對任意複雜的Python函數(包括循環、分支、遞迴)進行求導,支援高階導數和複雜的梯度操作。其自動微分系統基於稱為"autograd"的技術,能夠自動追蹤所有操作並建構計算圖用於反向傳播。jit:即時編譯:通過@jax.jit裝飾器,JAX可以將Python函數編譯成針對CPU、GPU或TPU最佳化的XLA(Accelerated Linear Algebra)程式碼,從而消除Python直譯器的開銷,獲得接近原生程式碼的運行速度。XLA是Google開發的領域特定編譯器,能夠生成高度最佳化的機器碼。vmap:自動向量化:vmap可以自動地將一個處理單個資料點的函數,轉換為能夠平行處理一批(a batch of)資料的函數,而無需開發者手動修改函數來處理額外的批處理維度。這使得編寫可批處理的程式碼變得異常簡單和優雅。例如,如果你有一個計算單個向量范數的函數,vmap可以自動將其升級為計算矩陣中每一行向量范數的函數。pmap:自動平行化:pmap則可以將計算自動地平行到多個裝置上(如多個GPU或TPU核心),是實現資料平行的利器。它在多個裝置間自動處理通訊和同步,開發者無需編寫複雜的分佈式程式碼。JAX的函數式程式設計範式(函數無副作用)和這些強大的函數變換組合在一起,使得研究者可以用非常簡潔和優雅的程式碼,實現極其複雜的、高性能的分佈式訓練。DeepMind等頂級研究機構已經將JAX作為其主要的內部研究框架,許多需要超大規模計算的前沿模型(如大規模Transformer、科學計算模型)都優先選擇使用JAX實現。然而,JAX相對陡峭的學習曲線和尚在發展中的生態系統,也使其在普通開發者中的普及率暫時不及PyTorch。表2-1 三大深度學習基礎框架對比(2025年)對於中國的開發者而言,PyTorch無疑是當前進入AI領域的最佳選擇,其豐富的中文教學和活躍的國內社區(如PyTorch中文網)也為學習提供了便利。同時,隨著國產AI晶片生態的成熟,TensorFlow和PyTorch都在積極適配華為升騰、寒武紀等國產硬體,而JAX的函數式和可編譯特性也使其在適配新型AI硬體時具有獨特的優勢。2.1.2 AI Agent開發框架:引爆應用創新的"編排層"如果說深度學習基礎框架是製造AI"大腦"即大模型本身的工廠,那麼AI Agent開發框架就是為這個"大腦"安裝"神經系統"和"四肢"的裝配車間。它們不關心模型底層的數學原理,而是專注於一個更高層次的問題:如何有效地編排和調度大模型已經具備的各種能力(如語言理解、推理、程式碼生成),並將其與外部工具和資料來源連接起來,以完成複雜、多步驟的任務。2025年,Agent框架已經從早期LangChain"一家獨大"的探索階段,演變為一個百花齊放、更加成熟和細分的生態系統。這些框架共同構成了AI技術堆疊中至關重要的"編排層"(Orchestration Layer),是推動AI從"聊天機器人"走向"數字員工"的核心引擎。演進趨勢:從"鏈式"呼叫到"圖"與"多智能體"協作早期(2023-2024年)的Agent框架,以LangChain為代表,其核心思想是"鏈"(Chain)——將對大模型的多次呼叫與工具的使用像鏈條一樣串聯起來。例如,一個典型的ReAct(Reason+Act)流程就是"思考->行動->觀察->思考..."的線性循環。這種模式對於解決簡單問題非常有效,但隨著任務複雜度的提升,其侷限性也日益凸顯:缺乏狀態管理:線性鏈條難以維護複雜的上下文狀態和記憶。控制流僵化:難以實現複雜的條件分支、循環和並行。可偵錯性差:一旦鏈條出錯,很難定位到具體是那個環節出了問題。為了克服這些挑戰,2025年的主流Agent框架不約而同地向兩個方向演進:圖(Graph)結構和多智能體(Multi-Agent)協作。圖結構:用"圖"來代替"鏈",將Agent的工作流建模為一個有向無環圖(DAG)或狀態機。圖中的每個節點代表一個計算步驟(如呼叫大模型、執行工具、檢索資料),而邊則代表了節點之間的依賴關係和控制流。這種模式允許開發者建構任意複雜的、具有循環、分支和並行能力的Agent工作流,並提供了更好的可視化、偵錯和狀態管理能力。LangChain的後續演進產品LangGraph就是這一趨勢的典型代表。LangGraph使用狀態機理論,將Agent的狀態顯式地定義為節點間的轉移,使得複雜的對話管理和任務編排變得清晰可控。多智能體協作:借鑑人類社會的分工協作模式,將一個複雜的任務分解給多個具有不同角色和專長的Agent來共同完成。例如,一個"軟體開發項目"可以由"產品經理Agent"、"程式設計師Agent"和"測試工程師Agent"組成的團隊來協作。這種模式不僅提升瞭解決複雜問題的能力,也使得Agent系統的行為更加可解釋和可控。微軟的AutoGen和CrewAI是這一方向的引領者。AutoGen將Agent互動抽象為"群聊"概念,而CrewAI則提供了更結構化的角色、任務、流程定義。主流Agent框架全景解析(2025年)2025年,開發者面臨著豐富的Agent框架選擇,它們在設計哲學、核心能力和適用場景上各有側重。1. LangChain & LangGraph:從"瑞士軍刀"到"手術刀"LangChain:作為最早普及的Agent框架,LangChain以其全面的功能和豐富的元件被稱為"AI開發的瑞士軍刀"。它提供了與數百種大模型、工具和資料來源的整合,並封裝了從Prompt範本、記憶管理到鏈式呼叫的各種標準元件。對於初學者和快速原型驗證而言,LangChain依然是快速上手的首選。但其高度的封裝和複雜的繼承體系也使其在定製化和生產部署時顯得較為笨重。LangGraph:為瞭解決LangChain在複雜流程控制上的不足,其團隊推出了LangGraph。LangGraph完全擁抱了"圖"的思想,讓開發者可以用顯式的狀態機來定義Agent的行為。這使得建構需要長期運行、具備自我修正能力、並且行為可追溯的複雜Agent成為可能。例如,一個需要與使用者進行多輪互動、並根據反饋不斷修改方案的旅行規劃Agent,就非常適合用LangGraph來建構。LangGraph標誌著LangChain生態從一個通用的工具集,向一個更專注於生產級、可控Agent工作流的"手術刀"式解決方案的演進。2. AutoGen & CrewAI:多智能體協作的雙雄AutoGen:由微軟研究院推出的AutoGen,其核心是"可對話的"多智能體系統。它將Agent之間的互動建模為一場群聊。開發者可以定義多個具有不同系統提示(System Prompt)和工具集的Agent,並將它們放入一個"聊天室"中。當一個任務被提出後,一個"管理員Agent"會根據任務進展,自動選擇下一個應該"發言"的Agent。這種模式非常適合模擬人類團隊的工作流程,特別是在軟體開發等需要多個角色(如產品經理、程式設計師、程式碼審查員)來回溝通的場景中表現出色。CrewAI:CrewAI在多智能體協作的理念上與AutoGen類似,但提供了更高級、更結構化的協作模式。它明確引入了"角色"(Role)、"任務"(Task)和"流程"(Process)的概念。開發者可以為每個Agent清晰地定義其角色、目標和可使用的工具。CrewAI還內建了精細的流程控制機制(如順序流程、層級流程),可以編排Agent的協作順序。相比AutoGen的"自由聊天",CrewAI更像是為Agent團隊設定了一套嚴謹的Scrum敏捷開發流程,使其協作更高效、結果更可控。3. LlamaIndex:專注RAG,資料為王與上述框架不同,LlamaIndex從創立之初就專注於一個核心問題:如何將大模型與私有資料或外部資料進行高效、可靠的連接,即檢索增強生成(RAG)。它提供了一整套圍繞RAG的、從資料攝取、索引建構、到高級檢索策略的全生命周期工具。當其他框架還在將RAG作為Agent的一個"工具"時,LlamaIndex已經將RAG本身做成了一門"科學"。其核心優勢在於:高級資料索引:支援從簡單的向量索引,到更複雜的樹狀索引、關鍵詞索引、知識圖譜索引等多種結構化索引,以適應不同的資料類型和查詢需求。高級檢索策略:提供了從簡單的Top-k檢索,到更複雜的融合檢索(Hybrid Search)、查詢轉換(Query Transformations)、後處理(Post-processing)等一系列高級策略,以提升檢索結果的精準性和相關性。查詢引擎與Agent整合:LlamaIndex的查詢引擎可以輕鬆地作為一個強大的工具,被整合到LangChain或CrewAI等其他Agent框架中,專門負責"資料檢索和問答"這一環節。對於任何需要建構企業知識庫、文件問答、客戶支援等資料密集型AI應用而言,LlamaIndex都是不可或缺的核心元件。4. Dify & PromptAppGPT:低程式碼/無程式碼的民主化浪潮為了讓非程式設計師也能參與到AI應用的創造中,一系列低程式碼/無程式碼平台應運而生,其中Dify和PromptAppGPT是傑出代表。Dify:它提供了一個可視化的拖曳式介面,使用者可以通過連接不同的節點(如"開始"、"大模型"、"知識庫"、"程式碼執行")來設計一個AI應用的工作流。Dify內建了完整的後端服務和營運管理功能,支援一鍵發佈成可獨立使用的Web應用。它極大地降低了建構標準AI應用(如客服機器人、內容生成工具)的技術門檻,特別適合企業內部的業務人員快速搭建滿足其特定需求的AI工具。PromptAppGPT:這是一個更加輕量級的、以Prompt為中心的快速開發框架。其核心思想是"用自然語言來程式設計",開發者只需在一個YAML檔案中,用結構化的提示語來描述Agent的目標、工具和工作流程,框架就能自動將其編譯成一個可運行的Web應用。這種模式極大地提升了從想法到原型的開發速度。中國本土框架的崛起:以Qwen-Agent為例除了上述國際主流框架,中國的AI廠商也在積極佈局Agent框架生態。阿里巴巴推出的Qwen-Agent就是一個典型。它與通義千問大模型深度整合,充分利用了Qwen系列在中文處理和多模態能力上的優勢。同時,Qwen-Agent針對國內開發者常用的工具和服務(如釘釘、高德地圖、阿里雲服務)進行了預整合,為建構符合中國市場需求的Agent應用提供了便利。字節跳動推出的扣子(Coze)商業化閉源平台則更為廣泛地被使用,隨後在2025年7月份進行了基礎平台功能的開源。該平台與旗下豆包大模型深度打通,充分發揮了其在對話互動與場景化適配方面的技術積累。同時,Coze針對國內使用者高頻使用的平台和服務(如抖音、飛書、今日頭條等)進行了原生適配,並提供豐富的外掛生態,大大降低了建構符合中國市場使用習慣的AI智能體應用的門檻。表2-2 主流AI Agent開發框架對比(2025年)總而言之,2025年的AI Agent開發框架生態已經高度繁榮和分化。開發者在進行技術選型時,應從任務的複雜度、對流程控制的要求、是否涉及多智能體協作、以及對外部資料的依賴程度等多個維度進行綜合考量。對於大多數開發者而言,通常需要組合使用這些框架——例如,使用CrewAI來定義多智能體協作流程,其中每個Agent內部使用LangGraph來管理其自身的狀態,並呼叫LlamaIndex作為其強大的資料檢索工具。掌握這些框架的組合與應用,是現代AI應用開發者的核心競爭力所在。2.2 模型訓練與微調技術:釋放AI潛能的藝術如果說基礎框架是AI開發的骨架,那麼模型訓練與微調技術就是賦予其血肉與靈魂的工藝。正是這些技術,將海量的無結構資料轉化為蘊含知識和智能的龐大參數網路,並使其能夠適應千變萬化的下游任務。2025年,隨著模型規模邁入兆參數時代,傳統的訓練方法已難以為繼。為了應對"算力牆"、"記憶體牆"和"成本牆"帶來的巨大挑戰,一系列創新的訓練與微調技術應運而生並迅速普及。分佈式訓練技術的發展使得訓練兆模型成為可能;參數高效微調(PEFT)技術則極大地降低了模型定製化的門檻;而混合精度與低位元訓練技術,則在性能與成本之間取得了精妙的平衡。掌握這些技術,是AI開發者駕馭大模型、釋放其全部潛能的關鍵所在。2.2.1 分佈式訓練:駕馭兆參數模型的"合力之術"訓練一個兆參數等級的大模型,其計算量和記憶體需求是任何單一計算裝置(即使是最強大的GPU)都無法承受的。因此,分佈式訓練——即利用成百上千個GPU組成的計算叢集來協同完成訓練任務——成為了前沿大模型開發的唯一可行路徑。這門被譽為"合力之術"的技術,其核心在於如何將龐大的模型和海量的資料巧妙地切分開,分配到叢集的各個計算節點上,同時最大限度地減少節點間通訊所帶來的開銷。2025年,以資料平行、張量平行、流水線平行和專家平行(作為模型平行的一種高級形式)為核心的"3D+1D"混合併行策略,已成為業界訓練超大規模模型的標準範式。資料平行(Data Parallelism):最簡單直接的擴展方式資料平行是最基礎、最易於理解的平行策略。其核心思想是"模型複製,資料切分":工作原理:將完整的模型複製到叢集中的每一個GPU上。然後,將一個大訓練批次(Batch)切分成多個小的子批次(Micro-batch),每個GPU獨立地使用自己的子批次資料進行前向和後向計算,得到各自的梯度(Gradients)。最後,通過一個All-Reduce通訊操作,將所有GPU上的梯度進行聚合(通常是求平均),並用聚合後的梯度來更新每個GPU上的模型副本,從而保證所有副本的參數保持同步。優勢:實現簡單,幾乎所有主流訓練框架(如PyTorch的DistributedDataParallel,DDP)都提供了開箱即用的支援。在GPU視訊記憶體足以容納整個模型的前提下,它能夠非常有效地擴展計算能力,加速訓練過程。劣勢:記憶體冗餘。每個GPU都需要儲存一份完整的模型參數、梯度和最佳化器狀態,這使得其記憶體開銷巨大。當模型大到單個GPU無法容納時,單純的資料平行便無能為力。程式碼示例(PyTorch DDP):import torchimport torch.distributed as distfrom torch.nn.parallel import DistributedDataParallel as DDP# 初始化分佈式環境dist.init_process_group(backend='nccl')local_rank = int(os.environ["LOCAL_RANK"])torch.cuda.set_device(local_rank)# 模型載入到當前GPUmodel = MyLLM().to(local_rank)model = DDP(model, device_ids=[local_rank])# 訓練循環(每個處理程序處理不同的資料分片)for batch in dataloader:    output = model(batch)    loss = output.loss()    loss.backward()  # 反向傳播計算梯度# DDP自動同步所有處理程序的梯度    optimizer.step() # 所有處理程序參數保持同步張量平行(Tensor Parallelism):在矩陣乘法層面"劈開"模型當模型巨大到單個GPU的視訊記憶體無法容納時,就需要將模型本身進行切分。張量平行就是其中一種"模型平行"(Model Parallelism)的策略。它作用於模型內部的單個算子(Operator),特別是Transformer模型中計算量最大的矩陣乘法(MatMul)。工作原理:以一個Y = XA的矩陣乘法為例,可以將權重矩陣A按列切分成[A1, A2],分別放到兩個GPU上。輸入X被覆制到兩個GPU上,各自計算Y1 = XA1和Y2 = XA2。最後,通過一個All-Gather通訊操作將Y1和Y2拼接成最終的結果Y = [Y1, Y2]。對於Transformer中的多頭注意力機制(Multi-Head Attention),也可以將不同的"頭"分配到不同的GPU上平行計算。NVIDIA開發的Megatron-LM框架是張量平行的經典實現。優勢:能夠有效減少單個GPU上的記憶體佔用,使得訓練更大的模型成為可能。它將通訊開銷巧妙地隱藏在計算過程中,因為矩陣乘法計算本身耗時較長,通訊可以與計算重疊。劣勢:通訊開銷巨大。由於在模型的前向和後向傳播過程中都需要進行All-Reduce或All-Gather操作,張量平行對GPU之間的互聯頻寬要求極高,通常只適用於節點內(Intra-node)具有高速互聯(如NVLink)的多個GPU之間,不適合跨網路節點使用。流水線平行(Pipeline Parallelism):像工廠流水線一樣組織模型層流水線平行是另一種重要的模型平行策略,它將模型的不同層(Layers)分配到不同的GPU上,形成一條計算流水線。工作原理:將一個大模型(如一個60層的Transformer)按順序切分成多個階段(Stages),例如,將1-15層放在GPU 0上(Stage 1),16-30層放在GPU 1上(Stage 2),以此類推。一個訓練批次的資料被進一步切分成多個微批次(Micro-batches)。第一個微批次在Stage 1完成計算後,其輸出被傳送到Stage 2,同時Stage 1開始處理第二個微批次。通過這種方式,所有Stage可以像工廠流水線一樣平行工作。優勢:極大地降低了單個GPU的記憶體佔用,因為每個GPU只需儲存模型的一部分層。其通訊開銷相對較低,只發生在相鄰的Stage之間,因此非常適合跨網路節點(Inter-node)擴展。劣勢:存在"流水線氣泡"(Pipeline Bubble)問題。在流水線的啟動和排空階段,部分GPU會處於空閒等待狀態,造成計算資源的浪費。為了減小氣泡,需要使用大量的微批次,但這又可能影響模型的收斂性。GPipe、PipeDream和PyTorch的PipelineParallel模組是其典型實現。專家平行(Expert Parallelism):為MoE架構量身定製隨著混合專家(MoE)架構在2025年的普及,一種專門為其設計的、更高級的模型平行策略——專家平行——應運而生。工作原理:在MoE模型中,巨大的參數量主要來自於大量的"專家"網路。專家平行的核心思想,就是將這些專家分佈到叢集中的不同GPU上。當一個Token需要由某個專家處理時,它會被通過網路路由到儲存該專家的GPU上進行計算,計算完成後再將結果返回。這本質上是一種更動態、更稀疏的模型平行。優勢:能夠以極高的效率擴展模型的總參數量,是訓練兆級MoE模型的關鍵技術。劣勢:對網路的All-to-All通訊能力提出了極致的要求,因為每個Token都可能需要與叢集中的任何一個專家進行通訊。同時,動態的路由和負載平衡問題也為訓練帶來了新的複雜性。混合併行:集大成者的"3D+1D"策略在實踐中,單一的平行策略往往無法滿足訓練超大規模模型的需求。因此,2025年的業界標準做法是採用"混合併行"策略,將上述多種平行方式組合起來,取長補短。一個典型的尖端訓練系統(如微軟的DeepSpeed或NVIDIA的Megatron-LM)通常採用如下的"3D+1D"混合策略:節點內(Intra-node)採用張量平行:在一個伺服器節點內部的8個GPU之間,利用高速的NVLink互聯,進行張量平行,共同承載一個巨大的模型層。節點間(Inter-node)採用流水線平行:在多個伺服器節點之間,利用相對較慢的網路(如InfiniBand),進行流水線平行,將模型的不同階段分佈在不同節點上。全域採用資料平行:在上述平行設定的基礎上,將整個混合併行單元(例如,一個由32個GPU組成的、能夠承載一個完整模型的單元)複製多份,進行資料平行,以進一步擴展計算規模。在MoE模型中,額外疊加專家平行:將MoE層中的專家分佈到全域所有的資料平行副本上。此外,以ZeRO(Zero Redundancy Optimizer)為代表的記憶體最佳化技術,作為資料平行的"威力加強版",也得到了廣泛應用。ZeRO不僅切分資料,還巧妙地將模型參數、梯度和最佳化器狀態這三部分巨大的記憶體開銷,也切分開分佈到資料平行的所有GPU上,從而使得每個GPU的記憶體負擔都大幅降低。ZeRO-3階段甚至可以做到讓每個GPU上不儲存完整的模型參數,實現了資料平行與模型平行某種程度上的統一。表2-3 主流分佈式訓練平行策略對比(2025年)對於開發者而言,雖然直接從零實現這些複雜的平行策略難度極高,但幸運的是,以微軟的DeepSpeed和NVIDIA的Megatron-LM為代表的開源框架,已經將這些複雜的平行技術封裝成了易於使用的介面。開發者只需在配置檔案中進行簡單的設定,就可以為自己的模型啟用這些強大的混合併行能力。在國產算力生態方面,寒武紀的分佈式通訊庫(CNCL)針對大規模場景進行了專項最佳化,新增HDR/DBT等Allreduce通訊演算法,優先提升大規模條件下的通訊頻寬,對Alltoall操作進行深度最佳化,使其大規模擴展性達到與國際主流競品相當的水平。特別是通過在Kernel支援RoCE網路卡的RDMA操作(類IB GDA),顯著最佳化了大規模專家平行場景下的ALL2ALL通訊延遲,提升了MoE類模型推理任務的端到端吞吐。這些最佳化使得國產算力在支撐萬卡級大模型訓練時具備了與國際先進水平相當的通訊性能。掌握如何使用這些框架,並根據自己的硬體環境和模型特點來選擇和組合最合適的平行策略,是每一位致力於大模型訓練的AI工程師的必備技能。2.2.2 參數高效微調(PEFT):讓大模型"飛入尋常百姓家"的革命如果說分佈式訓練是少數巨頭才能參與的"登月計畫",那麼參數高效微調(Parameter-Efficient Fine-Tuning, PEFT)技術,就是一場將大模型能力"民主化"、使其"飛入尋常百姓家"的深刻革命。在PEFT出現之前,讓一個巨大的預訓練模型去適應一個特定的下游任務,通常採用"全量微調"(Full Fine-tuning)的方式,即調整模型中所有的參數。這種方式不僅成本高昂(需要大量的GPU資源和時間),儲存開銷巨大(每個任務都需要儲存一個完整的模型副本),還常常面臨"災難性遺忘"(Catastrophic Forgetting)的風險——模型在學習新任務的同時,可能會忘記在預訓練階段學到的通用知識。PEFT的出現徹底改變了這一局面。其核心思想是:在微調過程中,凍結絕大部分預訓練模型的參數(這些參數蘊含了寶貴的通用世界知識),只引入或修改一小部分(通常<1%)的額外參數來適應新任務。這種"四兩撥千斤"的策略,帶來了革命性的優勢:極低的計算成本:由於可訓練的參數量急劇減少,微調所需的計算資源和時間大幅降低,使得在單張消費級GPU上微調百億級大模型成為可能。極低的儲存成本:對於每個下游任務,只需儲存和分發那一小部分被修改的參數(通常只有幾十兆字節),而非整個數十GB的模型副本。避免災難性遺忘:由於99%以上的原始模型參數被凍結,模型能夠很好地保持其強大的泛化能力。性能媲美全量微調:大量研究和實踐證明,在許多工上,精心設計的PEFT方法可以取得與全量微調相當甚至更好的性能。2025年,PEFT已經成為大模型定製化的主流範式。在眾多PEFT方法中,以LoRA(Low-Rank Adaptation)及其變體QLoRA最為耀眼,它們憑藉其出色的效果和普適性,成為了事實上的行業標準。LoRA:在模型權重中注入低秩之魂由微軟研究員提出的LoRA,其背後有一個深刻的洞察:大型語言模型雖然參數維度極高,但它們在適應下游任務時,其權重的變化矩陣(即"微調後的權重"減去"原始權重")本質上是"低秩"(Low-Rank)的。這意味著這個巨大的變化矩陣,可以用兩個小得多的矩陣相乘來近似表示。基於此,LoRA的實現方式堪稱優雅而高效:凍結原始權重:在微調時,原始的預訓練權重矩陣W(例如,Transformer中Attention層的查詢Q或鍵K的權重矩陣)保持不變。注入低秩介面卡:在W旁邊,並聯一個"低秩介面卡"(Low-Rank Adapter)。這個介面卡由兩個小矩陣A和B組成。A是一個隨機初始化的高瘦矩陣,B是一個零初始化的矮胖矩陣。它們的秩(Rank,r)遠小於原始權重的維度。只訓練介面卡:在微調過程中,只訓練矩陣A和B的參數,W始終被凍結。模型的總前向傳播變為 h = Wx + BAx。無縫合併部署:在推理部署時,可以將訓練好的BA矩陣與原始的W矩陣直接相加,得到一個新的權重矩陣 W' = W + BA。這意味著LoRA在推理時不會引入任何額外的計算延遲,這是其相比其他PEFT方法(如Adapter-Tuning)的巨大優勢。LoRA的秩r是一個關鍵的超參數,它控制了介面卡的容量。r越大,可訓練的參數越多,模型的擬合能力越強,但計算和儲存開銷也相應增加。在實踐中,r通常被設定為8、16或64這樣的小值,就已經能在大多數任務上取得優異的效果。QLoRA:將"平民化"推向極致LoRA極大地降低了微調的計算成本,但它仍然需要將完整的模型載入到視訊記憶體中進行前向和後向傳播,對於百億級模型,這依然需要數十GB的視訊記憶體,超出了大多數消費級GPU的承受範圍。為瞭解決這個"最後的堡壘",華盛頓大學的研究者們在LoRA的基礎上,結合了激進的量化技術,提出了QLoRA(Quantized LoRA),將大模型微調的平民化推向了極致。QLoRA的核心創新在於"用4-bit的精度來儲存和計算凍結的預訓練模型,同時用16-bit的精度來訓練LoRA介面卡",其關鍵技術包括:4-bit NormalFloat(NF4)量化:這是一種理論上資訊最優的新的4-bit資料類型。研究者發現,對於呈常態分配的預訓練模型權重,NF4相比傳統的4-bit整數或浮點數量化方法,能夠更好地保留資訊,減少量化誤差。雙重量化(Double Quantization):為了進一步節省記憶體,QLoRA對量化過程本身產生的"量化常數"(Quantization Constants)進行第二次量化,平均每個參數可以再節省約0.5位元的儲存空間。Paged Optimizers:利用NVIDIA統一記憶體(Unified Memory)的特性,將那些在GPU視訊記憶體不足時可能導致程式當掉的最佳化器狀態(Optimizer States)自動地從GPU視訊記憶體分頁到CPU記憶體中,從而避免了OOM(Out of Memory)錯誤。通過這套組合拳,QLoRA成功地將微調一個650億參數模型(如LLaMA-65B)所需的視訊記憶體從驚人的780GB降低到了僅48GB,使得在單張專業級GPU(如A100 80GB)上微調超大模型成為現實。更令人振奮的是,後續的開源社區實踐進一步表明,通過QLoRA,在24GB視訊記憶體的消費級顯示卡(如RTX 3090/4090)上微調70億甚至130億參數的模型也完全可行。其他PEFT方法概覽除了LoRA家族,PEFT領域還存在其他幾種重要的技術路線:Adapter-Tuning:這是最早的PEFT思想之一。它在Transformer的每個Block中串聯地插入一個非常小的、被稱為"介面卡"(Adapter)的瓶頸狀神經網路模組。微調時只訓練這些介面卡的參數。其缺點是在推理時會引入額外的計算延遲。Prefix-Tuning & Prompt-Tuning:這類方法不改變模型本身的任何權重,而是在輸入層或每一層的注意力機制前,加入一小段可訓練的、連續的向量序列(即"軟提示"或"前綴")。通過只最佳化這些前綴向量,來引導模型的行為以適應下游任務。這種方法對模型的侵入性最小,但表達能力相對有限。表2-4 主流參數高效微調(PEFT)技術對比(2025年)綜上所述,以LoRA和QLoRA為代表的PEFT技術,已經成為2025年AI開發者進行模型定製化的必備技能。它們不僅極大地降低了技術和資源門檻,也催生了一個繁榮的開源模型微調社區。對於這樣的平台而言,提供對LoRA/QLoRA的一站式支援,包括便捷的訓練指令碼、預最佳化的環境和豐富的微調模型案例,將是服務廣大AI開發者的核心價值所在。通過這些技術,無數中小企業和個人開發者得以站在巨人的肩膀上,用大模型解決自己領域內的具體問題,從而真正開啟了AI應用的"寒武紀大爆發"。2.3 推理最佳化與部署技術:從"能用"到"好用"的最後一公里如果說模型訓練是十年磨一劍的"鑄劍"過程,那麼推理最佳化與部署就是將這把"神劍"送上戰場、使其能夠大規模、低成本、高效率地"殺敵"的"出鞘"之術。一個未經最佳化的百億參數大模型,其推理過程不僅速度緩慢(生成一個詞可能需要數秒),而且對硬體資源(特別是視訊記憶體)的消耗也極為驚人,這使得其在真實世界的應用中成本高昂、體驗不佳。因此,推理最佳化與部署技術,成為了決定大模型能否從實驗室走向千家萬戶、從"能用"變為"好用"的最後一公里,也是AI應用商業化成敗的關鍵所在。2025年,大模型推理面臨的核心挑戰,已從單純的計算密集(Compute-bound)轉變為更棘手的記憶體頻寬密集(Memory-bound)。在自回歸(Auto-regressive)的生成過程中,每生成一個token,都需要將整個龐大的模型權重從視訊記憶體中完整地讀取一遍。相比於GPU強大的計算能力,視訊記憶體的讀寫速度成為了嚴重的瓶頸。此外,如何高效地管理和利用視訊記憶體,特別是儲存每個請求上下文的鍵值快取(KV Cache),以及如何在高並行場景下最大化GPU的吞吐量,都是推理最佳化需要解決的核心難題。為了應對這些挑戰,一個由演算法、軟體和硬體協同構成的、高度複雜的推理最佳化技術堆疊應運而生。本節將深入解析構成這一技術堆疊的兩大核心部分:關鍵最佳化技術:我們將剖析包括FlashAttention、PagedAttention、模型量化(Quantization)、KV快取最佳化(MQA/GQA)和投機解碼(Speculative Decoding)在內的核心演算法與技術,揭示它們如何從根本上緩解記憶體頻寬瓶頸和提升計算效率。主流推理框架:我們將對以vLLM和TensorRT-LLM為代表的業界頂級推理引擎進行全景式掃描,分析它們如何將上述最佳化技術工程化、產品化,為開發者提供開箱即用的高性能推理服務。2.3.1 關鍵最佳化技術:演算法與工程的協奏曲高性能推理的實現,是一場演算法與底層硬體精妙配合的協奏曲。2025年,一系列關鍵技術的突破與普及,從根本上改變了大模型推理的效率和成本結構。FlashAttention:重塑注意力計算,告別記憶體牆標準的自注意力機制(Self-Attention)是Transformer模型的核心,但也是其主要性能瓶頸之一。在計算過程中,它需要生成一個巨大的N×N(N為序列長度)的注意力得分矩陣(Attention Matrix),並將其寫入和讀出高頻寬記憶體(HBM)。隨著序列長度N的增加,這個矩陣的大小呈平方級增長,很快就會耗盡視訊記憶體頻寬,成為瓶頸。由史丹佛大學研究者提出的FlashAttention,通過一種"IO感知"的演算法設計,巧妙地解決了這個問題。其核心思想是避免將完整的注意力矩陣物化(materialize)到HBM中:工作原理:FlashAttention將輸入序列切分成多個小塊(Tiles),並載入到GPU核心上速度極快的SRAM中。它在SRAM內部完成一小塊注意力矩陣的計算、Softmax操作和與Value矩陣的乘積,然後只將最終的輸出寫回HBM。通過精巧的線上Softmax技巧,它可以在不看到完整注意力矩陣的情況下,正確地計算出最終結果。這個過程就像"流式處理"一樣,極大地減少了對HBM的讀寫次數。效果:FlashAttention將注意力計算的複雜度從O(N²)的記憶體訪問,降低到了O(N)。FlashAttention-2版本進一步最佳化了平行計算效率,相比標準注意力實現,可以帶來2-4倍的端到端推理加速和顯著的記憶體節省。到2025年,FlashAttention已成為所有主流推理框架的標配。特別是對於長上下文模型(如支援200萬token的Kimi),FlashAttention幾乎是不可或缺的。PagedAttention:像作業系統一樣管理KV快取在多使用者、高並行的推理服務中,對KV快取(KV Cache)的管理是另一個巨大的挑戰。每個使用者的請求序列長度不同,導致其KV快取大小也各不相同且動態變化。傳統的實現方式是為每個請求預分配一塊連續的視訊記憶體空間來儲存其KV快取,這會導致嚴重的記憶體碎片化問題:內部碎片:為請求預留了過多的空間,造成浪費。外部碎片:雖然總的空閒視訊記憶體很多,但沒有一塊足夠大的連續空間來滿足新請求,導致請求失敗。由vLLM團隊首創的PagedAttention,借鑑了現代作業系統中"虛擬記憶體"和"分頁"的思想,完美地解決了這一難題。工作原理:PagedAttention將每個請求的KV快取空間分割成固定大小的"塊"(Blocks),這些塊在物理視訊記憶體中可以非連續儲存。系統維護一個"塊表"(Block Table),為每個請求記錄其邏輯塊到物理塊的對應關係。當需要為序列擴展KV快取時,只需分配新的物理塊並更新塊表即可,無需進行昂貴的記憶體複製和重排。更妙的是,對於多個請求之間共享的前綴(例如,多輪對話中的歷史記錄),PagedAttention可以實現塊等級的記憶體共享,進一步節省視訊記憶體。例如,在批次處理100個關於同一文件的問答請求時,它們共享的文件前綴KV快取只需儲存一份,而不是100份。效果:PagedAttention將視訊記憶體利用率提升了2-4倍,使得在相同的硬體上,系統的吞吐量(每秒處理的token數)可以提升2-4倍。這一技術是vLLM等現代推理框架取得極致吞吐量的核心秘訣。KV快取最佳化:從架構層面"瘦身"除了管理方式的最佳化,直接從模型架構層面減小KV快取的大小,是另一種有效的最佳化路徑。標準的多頭注意力(Multi-Head Attention, MHA)為每個注意力頭都配備了一套獨立的Key和Value投影,這導致KV快取的尺寸與頭的數量成正比。多查詢注意力(Multi-Query Attention, MQA):MQA提出,讓所有的注意力頭共享同一套Key和Value投影。這樣做雖然在理論上會損失一定的模型表達能力,但在實踐中發現,對於大型模型而言,這種性能損失微乎其微,卻可以極大地減小KV快取的大小和生成每個Token時所需的記憶體頻寬。分組查詢注意力(Grouped-Query Attention, GQA):GQA是MHA和MQA之間的一個折中方案。它將注意力頭分成若干組,組內的頭共享同一套Key和Value投影。例如,一個有32個頭的模型,可以設定8個KV組,每4個查詢頭共享一套KV。GQA在模型性能和推理效率之間取得了更好的平衡,已成為2025年許多新發佈模型(如Llama 2/3)的標配架構。表2-5 核心推理最佳化技術概覽(2025年)模型量化:用更少的位元表示更多的知識模型量化是一種通過降低模型權重和/或啟動值的數值精度,來壓縮模型大小、減少記憶體佔用和加速計算的技術。2025年,針對大模型的量化技術已經非常成熟,主流的"權重量化"(Weight-Only Quantization)方法可以在幾乎不損失模型性能的前提下,將模型大小壓縮2-4倍。GPTQ(Generalized Post-Training Quantization):GPTQ是一種訓練後量化方法,它通過逐層分析和量化權重,並對量化誤差進行補償,可以在4-bit精度下保持很好的模型性能。其核心思想是貪婪地選擇權重進行量化,並動態調整剩餘權重以補償量化誤差。AWQ(Activation-Aware Weight Quantization):AWQ觀察到,並非所有權重對模型性能都同等重要。它通過分析啟動值的分佈,識別出那些對模型性能影響最大的"顯著權重"(Salient Weights),並為它們保留更高的精度(如FP16),而將其他權重進行更大力度的壓縮(如INT4)。這種方法在極低位元(如3-bit甚至更低)的量化上表現出色,且不需要反向傳播,量化速度極快。SmoothQuant:這是一種啟動-權重協同量化方法。它通過一個數學上等價的變換,將量化難度從啟動值(通常異常值較多)平滑地遷移一部分到權重上,使得兩者都更容易被量化,從而在INT8量化等場景下獲得更好的性能。投機解碼(Speculative Decoding):讓"小模型"為"大模型"開路投機解碼是一種巧妙的加速技術,它利用一個小的、速度極快的"草稿模型"(Draft Model)來輔助大的"目標模型"(Target Model)進行生成。工作原理:在生成每個token時,首先用草稿模型快速地生成一小段候選序列(例如5個Tokens)。然後,將這5個候選Tokens一次性地輸入到大的目標模型中,進行平行的驗證。如果目標模型驗證通過(即它自己本來也會生成這些Tokens),那麼就一次性地接受這5個Tokens作為最終輸出,相當於用一次大模型的計算換來了5個Tokens的生成,極大提升了速度。如果驗證失敗,則以目標模型的輸出為準,並用它來指導草稿模型的下一次生成。 (AI雲原生智能算力架構)
圖靈獎得主 Yann LeCun:大模型是“死胡同”,下一步押在那一條路?
2025 年 11 月 19 日,圖靈獎得主 Yann LeCun 宣佈:自己將離開 Meta,轉向創辦一家專注 Advanced Machine Intelligence(AMI)的新公司。這不是普通的高管跳槽。(CNBC:Yann LeCun 即將離職,創立自己的初創公司)這點陣圖靈獎得主沒有選擇加入 LLM 的軍備競賽,而是投身一個被冷落多年的方向:世界模型。LeCun 用了一個極端詞語:大語言模型是通往人類智能的“死胡同”(dead end)。在 11 月 23 日的一場題為《Do LLMs Understand?》的公開對談中,他直接指出:LLM擅長語言表達,但缺乏對真實世界的理解。幾乎同時,OpenAI前首席科學家 Ilya Sutskever 在 11 月 25 日的播客中也提出:“Just Add GPUs(拼算力)”的時代結束了。一周之內,兩位元深度學習先驅不約而同地質疑主流路線。這不是偶然,而是技術路線集體轉向的訊號:後LLM時代,正在成形。第一節 | 為什麼他說大模型是死胡同?在討論世界模型之前,必須先搞清楚:為什麼Yann LeCun 會把 LLM 稱為“死胡同”。他給出的答案,比外界以為的更系統。① 模型越來越大,但理解沒有跟上LeCun 的原話是:LLM 在語言層面表現不錯,但它們並不理解世界。沒有常識,也沒有因果關係,只是大量統計相關性的堆疊。換句話說:規模能讓模型更像會說話的人,但不能讓它更像懂世界的人。事實上,Meta 的 Llama 4 就是最好的例證。2025 年 4 月發佈後,它在真實場景中的表現遠不如基準測試,甚至被開發者質疑過度最佳化了評測指標。正應驗了 LeCun 的判斷:語言流暢度提升了,但世界理解力沒有跟上。② LLM的能力天花板,已經在實驗室裡顯露他在公開對話中強調:我們看到性能正在飽和。更大的模型,不一定帶來更高的真實智能。訓練資料正在逼近極限,算力成本呈指數上漲,而理解力卻沒有同步提升。這就是他所謂的死胡同:繼續堆算力,邊際收益越來越低。OpenAI前首席科學家Ilya Sutskever也訪談中表達了類似觀點:單純100倍擴大算力規模,不會帶來質變。③ 語言只是副產品,物理世界才是智能核心他的核心觀點是:語言是人類智能的副產品,不是核心機制。這句話背後的邏輯是:語言只描述世界的一部分,而真正的智能來自對物理世界的建模、預測和行動。但LLM做不到這一點。它們連杯子為什麼不會穿過桌子都不理解。它們知道語言中的規律,卻不知道世界的規律。飛機的設計靈感來自鳥類,但不是簡單模仿鳥類的飛行方式。同樣,智能也不是靠模仿語言表面規律產生的。④ LLM做不到規劃,更做不到行動LeCun 的批判重點在於:LLM 只是在對話裡看起來聰明,但在涉及多步驟推理、長期規劃、具身互動時,能力驟降。他舉了一個刺眼的對比:一個十幾歲的孩子,20小時就能學會開車。 但我們到現在還沒有level 5的自動駕駛。一個孩子第一次就能清理餐桌、裝滿洗碗機。 但我們連能做家務的機器人都沒有。這些對比說明:智能不是說話的能力,而是行動的能力。而這恰恰是LLM的軟肋。LeCun 的邏輯不是反對大模型,而是認為:預測語言這條路走不到終點。要想讓 AI 真正具有理解、推理與行動能力,必須換一套架構。第二節 | 世界模型:下一代AI要如何看世界?如果語言模型無法理解世界,那該怎麼建造真正的智能?LeCun的答案是:讓AI學會看世界。他指出,未來的AI必須像人類和動物一樣,能夠從多模態輸入中建構出對世界的內部理解,然後基於這個理解預測和行動。這種能力,GPT-4沒有,Claude、Gemini也都沒有。但貓有,嬰兒有,人有。① 什麼是世界模型?LeCun 解釋說:我們用預測下一個詞來訓練語言模型,是因為語言中詞彙有限,可以列舉。但真實世界無限豐富,預測像素等級的未來根本不成立。真實世界是高維、連續、混沌的感官流。人類不是通過預測下一個字來理解世界,而是通過觀察、記憶、總結,在腦中形成了一個抽象世界的內部投影。比如:嬰兒不需要有人告訴他重力是什麼,摔幾次東西就懂了貓不需要語言指導,看幾次就知道跳多高能上桌子人類開車20小時就能掌握,靠的不是背規則,而是建立了對速度、距離、慣性的直覺模型LLM缺的就是這個投影空間,它沒有世界的內部表徵。這就是LeCun正在建構的新路徑:Joint Embedding Predictive Architecture(JEPA),聯合嵌入預測架構。② JEPA:一種全新的學習範式JEPA與LLM的核心差異體現在多個層面。在輸入形式上,LLM只處理語言token,而JEPA可以處理視訊、圖像、感測器等多模態資料。在學習目標上,LLM是預測下一個詞,JEPA則是預測抽象狀態的變化。在學習方式上,LLM依靠離散序列建模,JEPA結合了表徵學習和因果建模。最關鍵的是,LLM沒有行動能力,而JEPA天然具備規劃和執行介面。LeCun用了一個形象比喻:用LLM去理解真實世界,就像用聽說來教人開車。你可以背下所有交規,但永遠學不會真正駕駛。因為語言描述不了摩擦力、慣性、視野盲區的感覺,而這些正是行動智能的核心。③ 從模擬世界開始,訓練下一代AILeCun正在AMI推動的,是一種類似動物學習的AI訓練模式:首先在模擬環境中讓AI自主互動,然後從互動中提取因果關係,形成持續記憶,最終具備規劃行動的能力。這種模式不再依賴更多token,而是依賴更好的世界模型。他說:我們不需要能背百科全書的AI,我們需要能用眼睛和手理解世界的AI。如果說 LLM 是語言的大師,世界模型就是物理世界的學徒。Yann LeCun 選擇押注後者。這不僅是技術路線的分叉,更是對 AGI 本質的重新定義。第三節 | 不只 LeCun:另一個方向也在探索在質疑 LLM 這條路的,不只 LeCun 一個人。Sutskever 也認為,縮放時代已經結束,下一代智能需要新的架構基礎。兩位元深度學習先驅達成了共識,但他們給出的答案完全不同。① LeCun押注世界模型,Sutskever押注安全超智能LeCun的方向很明確:讓AI具備對物理世界的理解和行動能力。通過自監督學習、表徵建模、因果預測,建構能夠真正看世界、理解世界的系統。他判斷10年內會出現具身AGI的原型。Sutskever的關注點在另一邊:當前AI系統的泛化能力遠不如人類,在benchmark上表現出色,但在真實場景中容易陷入錯誤循環。這種脆弱性如果不解決,規模越大風險越高。他創立SSI公司,要在AI能力繼續提升的同時,確保其安全可控。一句話總結:LeCun 要教 AI 理解世界和行動,Sutskever 要讓 AI 在變強的過程中可控。② 兩條路線背後的不同關切這種分歧源於兩人的關注焦點。LeCun關心的是 AI 如何有效泛化、如何在現實世界中行動。他強調的是:我們缺的不是算力,也不是資料,而是架構。Sutskever 關心的是 AI 的安全性和可控性。他認為在沒有解決泛化脆弱性之前,單純追求能力提升是危險的。他們代表了後 LLM 時代的兩個方向:架構創新派和安全優先派。過去十年,AI 競爭的是模型規模和訓練資料。但當兩位先驅先後離開大廠時,他們告訴我們:規則變了。下一階段的比拚,是誰先發明新架構、誰的系統既強大又可控。這是一個時代的落幕,另一個時代的起點。第四節 | 一場轉向,正在發生當圖靈獎得主公開質疑主流路線,當 OpenAI 啟動硬體項目、Google 挖來波士頓動力CTO,當數十億美元的投資開始流向具身智能,一個問題浮現出來:後LLM時代,到底會是什麼樣子?① 工業界的悄然轉向雖然 LLM 仍在快速發展,但一些關鍵變化已經在發生。OpenAI的硬體野心正在浮出水面。11月24日,公司確認首個AI硬體原型已完成,這是與蘋果前首席設計師Jony Ive合作的成果。按計畫,這款無螢幕AI裝置將在2年內發佈,徹底改變人與AI的互動方式。Google的多路線策略同樣值得關注。11月18日發佈Gemini 3 Pro,11月21日又挖來波士頓動力前CTO Aaron Saunders,推動Gemini成為通用機器人控制平台。目標是讓同一個模型適配任何形態的機器人,開箱即用。李飛飛的World Labs在融資2.3億美元後,11月12日發佈首個商業產品Marble,一個生成式世界模型平台。具身智能領域更熱鬧:Figure AI 估值390億美元,Tesla Optimus計畫 2026 年開始量產。這些動作指向一個共識:下一代 AI 不會只存在於對話方塊裡。② 兩條路線,都需要時間無論是 LeCun 的世界模型,還是 Sutskever 的安全超智能,都不是短期內能看到成果的方向。LeCun說需要幾年到十年,Sutskever說需要5到20年。這意味著: 當前的 LLM 仍然是主流應用的基礎。GPT、Claude、Gemini會繼續迭代,繼續服務數億使用者。但長期的技術制高點,可能不在這條路上。誰先在新架構上取得突破,誰就掌握了下一個十年的話語權。這是一場需要耐心的馬拉松,而不是百米衝刺。③ 對創業者和開發者意味著什麼?LeCun的轉向傳遞了幾個重要訊號:首先,不要迷信規模。更大的模型不等於更好的智能,架構創新的空間仍然巨大。其次,垂直場景有機會。世界模型最先落地的可能不是通用 AGI,而是機器人、自動駕駛、工業控制這些需要物理互動的領域。第三,開源仍然重要。LeCun一直是開放原始碼的堅定支持者,他的新公司AMI會繼續這條路線,這意味著小團隊也有機會參與到新範式的探索中。最後,要做好長期準備。這不是一兩年就能看到回報的方向,但可能是未來十年最重要的方向。LeCun 說過:真正的智能不在語言表面,而在對世界的深層理解。這不是對 LLM 的否定,而是對 AI 未來的更大想像。大模型已經證明了規模的力量,但下一步的突破,可能來自完全不同的架構。真正的AGI,不會困在對話方塊裡,而會出現在能夠理解世界、執行任務的系統中。這條路上,探索才剛剛開始。 (AI深度研究員)